Úvod do generování testovacích dat

Data testu jsou jakýkoli vstup daný modelu strojového učení za účelem testování jeho výkonu a spolehlivosti. Aby bylo možné získat modely strojového učení s vynikajícím výkonem, je důležité, aby je datový vědec vyškolil se všemi možnými variantami dat a poté otestoval stejný model ještě rozmanitější a komplikovanější, avšak komplexní údaje. Často je obtížné zahrnout všechny scénáře a variace do testovacích údajů, které se získají po rozdělení testu vlaku. Proto je důležité vytvořit dataset se všemi případy použití, které mohou nejlépe měřit výkon našeho modelu. Proces generování takového datového souboru je známý jako Generování testovacích dat.

Pravidla generování testovacích dat ve strojovém učení

V dnešním světě, s rostoucí složitostí ze dne na den a zkrácením dodací lhůty, musí vědci údajů připravit modely s nejlepšími výsledky co nejdříve. Vytvářené modely se však stávají nejvýkonnějšími modely, jakmile byly testovány na všech možných scénářích. Všechny tyto scénáře nemusí být možné, aby vědec s údaji měl s sebou, a proto bude možná muset vytvořit některá syntetická data pro testování modelů.

Proto při vytváření těchto syntetických datových souborů musíte mít na paměti určitá pravidla nebo pokyny:

  1. Musíte sledovat statistické rozdělení každé funkce v původním nebo skutečném datovém souboru. Pak musíme vytvořit testovací data se stejnými statickými distribucemi.
  2. Musíme pochopit účinky interakce, které mají funkce na sebe nebo na závislou proměnnou. Tím chceme říci, že musíme zachovat vztahy mezi proměnnými. Podívejte se na univariační, bivariační vztahy a pokuste se mít stejné vztahy při vytváření testovacích dat.
  3. Generovaná data by měla být pokud možno náhodná a normálně distribuovaná.
  4. V případě klasifikačních algoritmů musíme kontrolovat počet pozorování v každé třídě. Můžeme mít pozorování rovnoměrně rozdělená, abychom usnadnili testování, nebo mít více pozorování v jedné ze tříd.
  5. Do dat lze vstříknout náhodný šum, který otestuje model ML na anomáliích.
  6. Musíme také zachovat měřítko hodnot a variací ve vlastnostech testovacích dat, tj. Hodnoty prvku by měly být zobrazeny správně. Např. Hodnoty stáří by se měly pohybovat okolo závorky 0-100 a ne v tisících.
  7. Budeme potřebovat extrémně bohatý a dostatečně velký soubor dat, který pokryje všechny scénáře testovacích případů a všechny testovací scénáře. Špatně navržené údaje o zkoušce nemusí vyzkoušet všechny možné testy nebo skutečné scénáře, které omezují výkon modelu.
  8. Potřebujeme vygenerovat datový soubor dostatečně velký, aby se nejen model, ale také softwarové platformy prováděly nejen zátěžové testy, ale také stresové testování.

Jak generovat testovací data?

Obecně jsou testovací data úložiště dat, která jsou generována programově. Některá z těchto údajů mohou být použita k testování očekávaných výsledků modelu strojového učení. Tato data mohou být také použita k testování schopnosti modelu strojového učení zvládnout odlehlé a neviditelné situace dané jako vstup do modelu. Je důležité vědět, jaký druh testovacích dat je třeba vygenerovat a za jakým účelem.

Jakmile to víme, můžeme vygenerovat testovací data některou z následujících metod:

1. Můžeme ručně generovat testovací data podle našich znalostí domény a druhu testování, které musíme udělat na konkrétním modelu strojového učení. Můžeme použít Excel k vygenerování těchto druhů datových sad.

2. Můžeme také zkusit zkopírovat obrovské kousky dat, které máme k dispozici v produkčním prostředí, provést nezbytné změny a poté otestovat modely strojového učení.

3. Existuje mnoho nástrojů dostupných na trhu zdarma nebo placených, které můžeme použít k vytváření testovacích datových sad.

4. Testovací datové sady lze také generovat pomocí R nebo Pythonu. Existuje několik balíčků jako faker, které vám mohou pomoci při vytváření syntetických datových sad.

Výhody generování testovacích dat

Ačkoli testovací data byla generována nějakým způsobem a není reálná, jedná se stále o pevný datový soubor s pevným počtem vzorků, pevným vzorem a pevným stupněm oddělení tříd. Generování testovacích dat stále přináší několik výhod:

1. Mnoho organizací nemusí být pohodlné sdílet citlivá data svých uživatelů se svými poskytovateli služeb, protože by to mohlo porušit zákony o bezpečnosti nebo soukromí. V těchto případech mohou být vygenerovaná testovací data užitečná. Dokáže replikovat všechny statistické vlastnosti reálných dat bez odhalení reálných dat.

2. Pomocí vygenerovaných testovacích dat můžeme do dat začlenit scénáře, kterým jsme se dosud nedostali, ale očekáváme nebo v blízké budoucnosti čelíme.

3. Jak již bylo uvedeno výše, vygenerovaná data uchová univariační, bivariační a vícerozměrné vztahy mezi proměnnými a zachová pouze konkrétní statistiku.

4. Jakmile jsme získali naši metodu pro generování dat, je snadné vytvořit jakákoli testovací data a ušetřit čas buď na vyhledávání dat, nebo na ověření výkonu modelu.

5. Zkušební údaje by týmu poskytly tolik potřebnou flexibilitu pro přizpůsobení údajů generovaných podle potřeby a za účelem zlepšení modelu.

Závěr

Závěrem lze říci, že dobře navržená data testování nám umožňují identifikovat a napravit vážné nedostatky v modelu. Mít přístup k vysoce kvalitním datovým sadám a otestovat modely strojového učení vám pomůže při vytváření robustního a spolehlivého AI produktu. Generování syntetických testovacích datových souborů přichází jako požehnání v dnešním světě, kde je soukromí

Doporučené články

Toto byl průvodce generováním testovacích dat. Zde diskutujeme pravidla a jak generovat testovací data s jejich výhodami. Další informace naleznete také v následujících článcích -

  1. Fuzz Testing
  2. Data Science Machine Learning
  3. Nástroje pro vědu o údajích
  4. Technologie velkých dat

Kategorie: