Přehled strojového učení hyperparametrů

Pro každý model potřebujeme některé parametry, které pomohou při poskytování základu pro řešení problému / analýzu a vyhodnocení modelu. Některé z těchto parametrů je třeba se naučit z dat a některé musíme explicitně definovat z našeho konce. Parametry, které lze z dat získat, aniž by byly explicitně definovány, se nazývají parametry modelu. Parametr, který je uživatelem explicitně definován, se nazývá Hyperparameters. Hyperparametry jsou také parametry modelu, ale termín hyperparametry se používají ve strojovém učení, takže je lze snadno rozlišit a nezaměňovat s parametry modelu, které jsou získány ze souboru dat.

Co je strojové učení hyperparametrů?

Pro většinu rámců strojového učení nemají hyperparametry přísnou definici. Tyto hyperparametry řídí základní systém modelu, který řídí primární (modální) parametry modelu. Pokusme se porozumět hyperparametrům pomocí následujícího příkladu.

  • Vyladění houslí je velmi důležité, když je člověk ve fázi učení, protože v té době vytváří spojení mezi různými smysly. Uši, prsty a oči se učí housle současně. Teď na začátku Zvyknutí si na zvuk houslí z tónu vytváří špatnou chuť zvuku, která zkazí celý zážitek těch, kteří se zamilují do procesu učení houslí.
  • To je důvod, proč ladění houslí může skutečně pomoci jednomu v procesu učení houslí. Stejně tak je hyperparametr jakýmsi vyladěním modelu strojového učení tak, aby dal správný směr.
  • Hyperparametry jsou obecně definovány před použitím algoritmu strojového učení na datovou sadu.
  • Nyní je dalším úkolem to, co by měl být hyperparametr a jaká by měla být jeho hodnota. Protože člověk musí vědět, jaké řetězce je třeba vyladit a jak naladit housle, než je naladíme. Totéž platí pro hyperparametry, musíme definovat, jaké hyperparametry a jaká by měla být jeho hodnota, v podstatě záleží na každém úkolu a na každém datovém souboru.
  • Abychom to pochopili, pojďme se podívat na optimalizaci modelu.
  • Při implementaci modelu strojového učení hraje optimalizace modelu zásadní roli. Existuje mnoho oborů strojového učení, které se věnují výhradně optimalizaci modelu strojového učení. Obecně se předpokládá, že k optimalizaci modelu potřebujeme upravit kód tak, aby byla chyba minimalizována.
  • Existují však skryté prvky, které ovlivňují optimalizaci strojového učení mimo model a mají velký vliv na chování modelu. Tyto skryté prvky se označují jako hyperparametry, jedná se o kritické komponenty pro optimalizaci jakéhokoli modelu strojového učení.
  • Hyperparametry jsou jemné tunery / nastavení, které řídí chování modelu. Tyto hyperparametry jsou definovány mimo model, ale mají přímý vztah k výkonu modelu. Hyperparametry lze považovat za ortogonální k modelu.
  • Kritéria pro definování hyperparametrů jsou velmi flexibilní a abstraktní. Jistě existuje několik hyperparametrů, jako je počet skrytých vrstev, rychlost učení modelu, který je dobře zaveden, a také některá nastavení, která lze pro konkrétní model považovat za hyperparametr, jako je řízení kapacity modelu.
  • Existuje možnost, že algoritmus přeplní model, pokud se algoritmy učí přímo nastavením. Jak je zřejmé, hyperparametry se nenaučují / ladí pomocí tréninkové sady, takže pro výběr hyperparametrů se používá testovací nebo ověřovací sada. V širokém měřítku nastavujeme různé hodnoty hyperparametrů, ta, která nejlépe funguje se sadou testů nebo validací, se považuje za náš nejlepší hyperparametr.

Kategorie hyperparametrů

Pro různé typy datových sad a podle modelu můžeme mít různé hyperparametry pro zvýšení výkonu modelu. Hyperpparametry lze obecně rozdělit do dvou kategorií.

  • Hyperparametr pro optimalizaci
  • Hyperparametry pro konkrétní modely

Pojďme diskutovat o každém z nich.

1. Hyperparametry pro optimalizaci

Jak název napovídá, tyto hyperparametry se používají pro optimalizaci modelu.

  • Míra učení

Tento hyperparametr určuje, do jaké míry nově získaná data přepíší stará dostupná data. Pokud je hodnota tohoto hyperparameteru vysoká, vyšší rychlost učení nebude model správně optimalizovat, protože existuje šance, že přeskočí minima. Na druhou stranu, pokud je míra učení učiněna velmi méně, bude konvergence velmi pomalá.

Rychlost učení hraje klíčovou roli při optimalizaci výkonu modelu, protože v některých případech mají modely stovky parametrů (parametry modelu) s křivkou chyby, rychlost učení rozhodne frekvenci křížové kontroly se všemi parametry. Je také těžké najít lokální minima křivek chyb, protože obecně mají nepravidelné křivky.

  • Objem várky

Pro urychlení procesu učení je tréninková sada rozdělena do různých šarží. V případě stochastického postupu tréninku modelu je malá šarže trénována, vyhodnocena a zpětně propuštěna tak, aby se upravily hodnoty všech vašich hyperparametrů, to samé se opakuje pro celou tréninkovou sadu.

Je-li velikost dávky větší, prodlouží se doba učení a bude vyžadovat více paměti pro zpracování pro násobení matic. Pokud je velikost dávky menší, bude při výpočtu chyb větší šum.

  • Počet epoch

Epocha představuje kompletní cyklus dat, která se mají naučit ve strojovém učení. Epochy hrají velmi důležitou roli v iteračním procesu učení.

Při určování správného počtu epoch je uvažována chyba ověření. Je možné zvýšit počet epoch, pokud dojde ke snížení chyby ověření. Pokud se chyba ověření nezlepší u po sobě jdoucích epoch, pak je to signál k zastavení rostoucího počtu epoch. To je také známé jako předčasné zastavení.

2. Hyperparametry pro specifické modely

Některé hyperparametry jsou zapojeny do struktury samotného modelu. Některé z nich jsou následující.

  • Počet skrytých jednotek

V modelech hlubokého učení je nezbytné definovat řadu skrytých jednotek pro neuronové sítě. Tento hyperparametr se používá pro definování schopnosti učení modelu. pro komplexní funkce musíme definovat několik skrytých jednotek, ale mějte na paměti, že by model neměly příliš zapadat.

  • Počet vrstev

Je zřejmé, že neuronová síť se 3 vrstvami poskytne lepší výkon než 2 vrstvy. Zvýšení více než 3 v neuronových sítích tolik nepomůže. V případě CNN zvyšuje model vrstvy stále více vrstev.

Závěr

Hyper parametry jsou definovány explicitně před použitím algoritmu strojového učení na datovou sadu. Hyperparametry se používají k definování vyšší úrovně složitosti modelu a schopnosti učení. Hyperparametry mohou být také nastavením modelu. Některé hyperparametry jsou definovány pro optimalizaci modelů (velikost dávky, rychlost učení atd.) A některé jsou specifické pro modely (počet skrytých vrstev atd.).

Doporučené články

Toto je průvodce strojem Hyperparameter Machine Learning. Zde diskutujeme přehled a co je hyperparametrické strojové učení s jeho kategoriemi. Další informace naleznete také v následujících článcích -

  1. Úvod do strojového učení
  2. Strojové učení bez dozoru
  3. Druhy algoritmů strojového učení
  4. Aplikace strojového učení
  5. Implementace neuronových sítí
  6. Top 6 Porovnání mezi CNN vs RNN

Kategorie: