Úvod do skupinových metod ve strojovém učení

V tomto článku uvidíme nástin Ensemble Methods in Machine Learning. Ensemble learning je kombinace různých technik strojového učení do prediktivního modelu pro zlepšení predikce. Učí se souborové učení, aby se snížila rozptyl prediktivních dat. Účelem tohoto typu učení je minimalizovat předpojatost modelu. Ensemble learning je multimodální systém, ve kterém jsou různí klasifikátoři nebo techniky strategicky kombinováni za účelem klasifikace nebo predikce statistik složitého problému s lepší přesností. Cílem takového učení je minimalizovat pravděpodobnost špatného výběru z modelu. Určuje důvěru v rozhodnutí učiněné modelem. Myšlenka výběru optimálních funkcí se uskutečnila v kompletním učení.

Typy metod souboru ve strojovém učení

Ensemble Methods pomáhají vytvářet více modelů a poté je kombinovat, aby se dosáhlo zlepšených výsledků, některé metody souboru jsou rozděleny do následujících skupin:

1. Sekvenční metody

V této metodě Ensemble existují postupně generovaní studenti, u kterých je závislost na datech. Každá další data v základním žáci mají určitou závislost na předchozích datech. Takže předchozí nesprávně označená data jsou vyladěna na základě své váhy, aby se zlepšil výkon celého systému.

Příklad : Zvýšení

2. Paralelní metoda

V této metodě Ensemble je základní žák generován paralelně, v němž neexistuje závislost na datech. Všechna data v základním žákovi jsou generována nezávisle.

Příklad : stohování

3. Homogenní soubor

Taková metoda souboru je kombinací stejných typů klasifikátorů. Datový soubor se však u každého klasifikátoru liší. Díky tomu bude kombinovaný model pracovat přesněji po agregaci výsledků z každého modelu. Tento typ souboru funguje s velkým počtem datových sad. V homogenní metodě je metoda výběru prvků stejná pro různá tréninková data. Je to výpočetně drahé.

Příklad: Do homogenního souboru přicházejí populární metody, jako je pytlování a posilování.

4. Heterogenní soubor

Taková metoda souboru je kombinací různých typů klasifikátorů nebo modelů strojového učení, ve kterých každý klasifikátor stavěl na stejných datech. Taková metoda funguje pro malé datové sady. V heterogenní je metoda výběru prvků odlišná pro stejná tréninková data. Celkový výsledek této metody souboru se provádí zprůměrováním všech výsledků každého kombinovaného modelu.

Příklad : stohování

Technická klasifikace metod souboru

Níže je uvedena technická klasifikace metod souboru:

1. Pytlování

Tato metoda souboru kombinuje dva modely strojového učení, tj. Bootstrapping a Aggregation, do jediného modelu souboru. Cílem metody pytlování je omezit velké rozptyly modelu. Rozhodovací stromy mají rozptyl a nízkou zaujatost. Velký datový soubor je (řekněme 1000 vzorků) podvzorkován (řekněme 10 dílčích vzorků, z nichž každý nese 100 vzorků dat). Více rozhodovacích stromů je založeno na každém dílčím vzorku tréninkových dat. Zatímco bije dílčí vzorkované údaje do různých rozhodovacích stromů, snižuje se obava z nadměrného nasazování tréninkových dat na každý rozhodovací strom. Pro efektivitu modelu se každý z jednotlivých rozhodovacích stromů pěstuje hluboko a obsahuje údaje o tréninku odebrané pod vzorkem. Výsledky každého rozhodovacího stromu jsou agregovány, aby se porozumělo konečné predikci. Rozptyl agregovaných dat se zmenšuje. Přesnost predikce modelu v metodě pytlování závisí na počtu použitých rozhodovacích stromů. Různé dílčí vzorky dat se vyberou náhodně s náhradou. Výstup každého stromu má vysokou korelaci.

2. Posílení

Posilující soubor také kombinuje odlišný stejný typ klasifikátoru. Posílení je jednou ze sekvenčních metod souboru, ve kterých každý model nebo klasifikátor běží na základě funkcí, které bude využívat další model. Tímto způsobem metoda posilování vytváří silnější model žáka od slabých modelů žáků průměrováním jejich hmotností. Jinými slovy, silnější trénovaný model závisí na mnoha slabých trénovaných modelech. Slabý student nebo model trénovaný na oblečení je ten, který je méně korelován se skutečnou klasifikací. Ale další slabý student je o něco více korelován s pravou klasifikací. Kombinace těchto různých slabých studentů dává silnému studentovi, který dobře koreluje se skutečnou klasifikací.

3. Stohování

Tato metoda také kombinuje několik klasifikačních nebo regresních technik pomocí meta-klasifikátoru nebo meta-modelu. Modely nižších úrovní jsou vyškoleny s úplným souborem údajů o školení a poté je kombinovaný model vyškolen s výsledky modelů nižší úrovně. Na rozdíl od posilování je každý model nižší úrovně podroben paralelnímu školení. Predikce z nižších úrovní modelů se používá jako vstup pro další model jako datový soubor školení a tvoří hromadu, ve které je vrchní vrstva modelu trénována více než spodní vrstva modelu. Model nejvyšší vrstvy má dobrou přesnost predikce a je postaven na modelech nižší úrovně. Zásobník se zvyšuje, dokud není provedena nejlepší předpověď s minimální chybou. Predikce kombinovaného modelu nebo meta-modelu je založena na predikci různých slabých modelů nebo modelů s nižší vrstvou. Zaměřuje se na vytvoření modelu méně zkreslení.

4. Náhodný les

Náhodný les se mírně liší od pytlování, protože používá hluboké stromy, které jsou namontovány na vzorcích bootstrapu. Výstup každého tressu je kombinován pro snížení rozptylu. Zatímco rosteme každý strom, namísto generování vzorku bootstrapu založeného na pozorování v datové sadě, také vzorkujeme datovou sadu na základě funkcí a pro sestavení stromu používáme pouze náhodnou podmnožinu takového vzorku. Jinými slovy, vzorkování datového souboru se provádí na základě funkcí, které snižují korelaci různých výstupů. Náhodný les je vhodný pro rozhodování o chybějících datech. Náhodná doménová struktura znamená náhodný výběr podmnožiny vzorku, který snižuje šance na získání souvisejících hodnot predikcí. Každý strom má jinou strukturu. Náhodný les má za následek mírné zvýšení předpojatosti lesa, ale díky průměrování všech méně souvisejících predikcí z různých stromů se výsledná odchylka snižuje a dává celkově lepší výkon.

Závěr

Multi-modelový přístup souboru je realizován hlubokými modely učení, v nichž komplexní data studovala a zpracovávala prostřednictvím různých kombinací klasifikátoru, aby získala lepší předpověď nebo klasifikaci. Predikce každého modelu v souborovém učení musí být více korelována. Tím bude udržováno zkreslení a rozptyl modelu co nejnižší. Model bude efektivnější a předpovídá výstup při minimální chybě. Soubor je dohlížecím algoritmem učení, protože model je dříve trénován se sadou dat k vytvoření predikce. V kompletním učení by měl být počet klasifikátorů součástí stejný jako označení třídy, aby se dosáhlo vysoké přesnosti.

Doporučené články

Toto je průvodce metodami souborů ve strojovém učení. Zde diskutujeme důležité typy metod souboru ve strojovém učení spolu s technickou klasifikací. Další informace naleznete také v dalších navrhovaných článcích -

  1. Úvod do souboru technik
  2. Životní cyklus strojového učení s výhodami
  3. Algoritmy strojového učení
  4. Top 24 otázek rozhovoru o strojovém učení

Kategorie: