Úvod do algoritmu AdaBoost

Algoritmus AdaBoost lze použít ke zvýšení výkonu jakéhokoli algoritmu strojového učení. Strojové učení se stalo mocným nástrojem, který dokáže předpovídat na základě velkého množství dat. V poslední době je tak populární, že aplikace strojového učení lze nalézt v našich každodenních činnostech. Běžným příkladem je získávání návrhů na produkty při nakupování online na základě minulých položek zakoupených zákazníkem. Strojové učení, často označované jako prediktivní analýza nebo prediktivní modelování, lze definovat jako schopnost počítačů učit se, aniž by byl explicitně programován. Používá naprogramované algoritmy k analýze vstupních dat k predikci výstupu v přijatelném rozsahu.

Co je to AdaBoost Algoritmus?

Ve strojovém učení vylepšení pocházelo z otázky, zda lze sadu slabých klasifikátorů převést na silný klasifikátor. Slabý žák nebo klasifikátor je žák, který je lepší než náhodné hádání, a to bude robustní v přesahu jako ve velké sadě slabých klasifikátorů, přičemž každý slabý klasifikátor je lepší než náhodný. Jako slabý klasifikátor se obvykle používá jednoduchý práh pro jeden znak. Pokud je funkce nad prahem, než bylo předpovězeno, patří k pozitivnímu, jinak patří k negativnímu.

AdaBoost je zkratka „Adaptive Boosting“, která transformuje slabé studenty nebo prediktory na silné prediktory, aby vyřešili problémy klasifikace.

Pro klasifikaci lze konečnou rovnici uvést níže:

Zde f m označuje m- slabý klasifikátor am představuje jeho odpovídající hmotnost.

Jak funguje AdaBoost Algoritmus?

AdaBoost lze použít ke zlepšení výkonu algoritmů strojového učení. Používá se nejlépe u slabých studentů a tyto modely dosahují vysoké přesnosti nad náhodnou náhodou při klasifikačním problému. Běžné algoritmy s AdaBoost jsou rozhodovací stromy s úrovní jedna. Slabý student je klasifikátor nebo prediktor, který má relativně špatnou přesnost. Lze také předpokládat, že slabí studenti se snadno počítají a mnoho příkladů algoritmů se kombinuje, aby se vytvořil silný klasifikátor prostřednictvím posílení.

Pokud vezmeme datový soubor obsahující n počet bodů a zvažte níže uvedené

-1 představuje negativní třídu a 1 znamená pozitivní. Inicializuje se níže, hmotnost pro každý datový bod je:

Pokud vezmeme v úvahu iteraci od 1 do M pro m, dostaneme níže uvedený výraz:

Nejdříve musíme vybrat slabý klasifikátor s nejnižší váženou chybou klasifikace tak, že slabý klasifikátor umístíme do datové sady.

Potom se vypočítá hmotnost pro m- tého slabého klasifikátoru, jak je uvedeno níže:

Hmotnost je kladná pro všechny klasifikátory s přesností vyšší než 50%. Hmotnost se zvětšuje, pokud je klasifikátor přesnější a negativní, pokud klasifikátor má přesnost menší než 50%. Predikci lze kombinovat převrácením znaménka. Převrácením znaménka predikce lze klasifikátor s přesností 40% převést na přesnost 60%. Klasifikátor tedy přispívá ke konečné predikci, i když provádí horší než náhodné hádání. Konečná předpověď však nebude mít žádný příspěvek ani nebude získávat informace od klasifikátoru s přesností 50%. Exponenciální člen v čitateli je vždy větší než 1 pro nesprávně klasifikovaný případ z kladného váženého klasifikátoru. Po iteraci jsou nesprávně klasifikované případy aktualizovány s větší hmotností. Negativní vážené klasifikátory se chovají stejně. Existuje však rozdíl, že po převrácení znaménka; správné klasifikace se původně převedou na nesprávnou klasifikaci. Konečná predikce může být vypočtena tak, že se vezme v úvahu každý klasifikátor a poté se provede součet jejich vážené predikce.

Aktualizace váhy pro každý datový bod níže:

Z m je zde normalizační faktor. Zajišťuje, že součet všech hmotností instance se rovná 1.

Na co se používá algoritmus AdaBoost?

AdaBoost lze použít pro detekci obličeje, protože se zdá být standardním algoritmem pro detekci obličeje v obrazech. Používá kaskádu odmítnutí skládající se z mnoha vrstev klasifikátorů. Pokud detekční okno není rozpoznáno v žádné vrstvě jako obličej, je odmítnuto. První klasifikátor v okně zahodí negativní okno, přičemž výpočetní náklady budou minimální. Ačkoli AdaBoost kombinuje slabé klasifikátory, principy AdaBoost se také používají k nalezení nejlepších funkcí, které lze použít v každé vrstvě kaskády.

Výhody a nevýhody algoritmu AdaBoost

Jednou z mnoha výhod algoritmu AdaBoost je rychlé, jednoduché a snadné programování. Rovněž má flexibilitu, kterou lze kombinovat s jakýmkoli algoritmem strojového učení, a není třeba vyladit parametry s výjimkou T. Byl rozšířen na problémy učení nad binární klasifikaci a je univerzální, protože může být použit s textem nebo číslem data.

AdaBoost má také několik nevýhod, jako je to z empirických důkazů a zvláště citlivé na jednotný hluk. Slabé klasifikátory, které jsou příliš slabé, mohou vést k nízkým maržím a přeplnění.

Příklad algoritmu AdaBoost

Můžeme zvážit příklad přijetí studentů na vysokou školu, kde budou buď přijati, nebo zamítnuti. Zde lze kvantitativní a kvalitativní údaje nalézt z různých hledisek. Například výsledek přijetí, který může být ano / ne, může být kvantitativní, zatímco jakákoli jiná oblast, jako jsou dovednosti nebo záliby studentů, může být kvalitativní. Můžeme snadno přijít se správnou klasifikací tréninkových dat v lepší než šance na podmínky, jako je-li student dobrý v konkrétním předmětu, pak je přijat. Je však obtížné najít vysoce přesnou predikci a potom se do obrazu dostanou slabí studenti.

Závěr

AdaBoost pomáhá při výběru tréninkové sady pro každý nový klasifikátor, který je vyškolen na základě výsledků předchozího klasifikátoru. Také při kombinování výsledků; určuje, jak velkou váhu by měla být přidělena odpověď každého klasifikátora. Kombinuje slabé studenty, aby vytvořili silnou chybu, která opravuje chyby klasifikace, což je také první úspěšný vylepšující algoritmus pro problémy binární klasifikace.

Doporučené články

Toto byl průvodce algoritmem AdaBoost. Zde jsme diskutovali koncept, použití, práci, klady a zápory s příkladem. Další informace naleznete také v našich dalších doporučených článcích -

  1. Algoritmus Naive Bayes
  2. Otázky týkající se marketingu v sociálních médiích
  3. Strategie propojení budov
  4. Platforma marketingu sociálních médií

Kategorie: