Úvod do algoritmu rozhodovacího stromu

Když máme problém vyřešit, což je buď klasifikace, nebo regresní problém, je algoritmus rozhodovacího stromu jedním z nejpopulárnějších algoritmů používaných pro vytváření klasifikačních a regresních modelů. Patří do kategorie učení pod dohledem, tj. Označených dat.

Co je algoritmus rozhodovacího stromu?

Algoritmus rozhodovacího stromu je algoritmus strojového učení, kde jsou data průběžně rozdělena v každém řádku na základě určitých pravidel, dokud není vygenerován konečný výsledek. Vezměme si příklad, předpokládejme, že otevřete nákupní centrum a samozřejmě byste chtěli, aby v podnikání rostl s časem. Z tohoto důvodu byste vyžadovali vracení zákazníků a nových zákazníků ve vašem obchodě. Za tímto účelem byste připravili různé obchodní a marketingové strategie, například zasílání e-mailů potenciálním zákazníkům; vytvářet nabídky a nabídky, zacílit na nové zákazníky atd. Jak ale víme, kdo jsou potenciální zákazníci? Jinými slovy, jak klasifikujeme kategorii zákazníků? Stejně jako někteří zákazníci navštíví jednou za týden a jiní by rádi navštívili jednou nebo dvakrát za měsíc, nebo někteří navštíví za čtvrtinu. Rozhodovací stromy jsou tedy jedním z takových klasifikačních algoritmů, které třídí výsledky do skupin, dokud nezůstane žádná podobnost.

Tímto způsobem strom rozhodování klesá ve stromové struktuře. Hlavní složky stromu rozhodnutí jsou:

  • Rozhodovací uzly, kde se data dělí nebo říkají, je místem atributu.
  • Link Link, který představuje pravidlo.
  • Rozhodovací listy, které jsou konečnými výsledky.

Fungování algoritmu rozhodovacího stromu

Do práce rozhodovacího stromu je zapojeno mnoho kroků:

1. Rozdělení - Jedná se o proces rozdělení dat na podmnožiny. Rozdělení lze provést na různých faktorech, jak je uvedeno níže, tj. Na základě pohlaví, výšky nebo na základě třídy.

2. Prořezávání - Jedná se o proces zkrácení větví stromu rozhodování, čímž se omezí hloubka stromu

Prořezávání je také dvou typů:

  • Předřezávání - Zde zastavíme růst stromu, když nenajdeme statisticky významnou asociaci mezi atributy a třídou v konkrétním uzlu.
  • Post-Pruning - Abychom mohli postříhat, musíme validovat výkon modelu testovací sady a poté odříznout větve, které jsou výsledkem nadměrného hluku z tréninkové sady.

3. Výběr stromu - Třetí krok je proces nalezení nejmenšího stromu, který odpovídá datům.

Příklady a ilustrace konstrukce stromu rozhodnutí

Nyní, když jsme se naučili zásady rozhodovacího stromu. Pojďme to pochopit a ilustrovat pomocí příkladu.

Řekněme, že chcete hrát kriket v určitý konkrétní den (např. V sobotu). Jaké jsou faktory, které jsou zapojeny a které rozhodnou, zda se hra stane nebo ne?

Je zřejmé, že hlavním faktorem je klima, žádný jiný faktor nemá takovou pravděpodobnost, jakou má klima pro přerušení hry.

Shromažďovali jsme údaje za posledních 10 dní, které jsou uvedeny níže:

DenPočasíTeplotaVlhkost vzduchuVítrHrát si?
1ZataženoHorkýVysokýSlabýAno
2SlunnýHorkýVysokýSlabýNe
3SlunnýMírnýNormálníSilnýAno
4DeštivýMírnýVysokýSilnýNe
5ZataženoMírnýVysokýSilnýAno
6DeštivýChladnýNormálníSilnýNe
7DeštivýMírnýVysokýSlabýAno
8SlunnýHorkýVysokýSilnýNe
9ZataženoHorkýNormálníSlabýAno
10DeštivýMírnýVysokýSilnýNe

Nyní vytvořme náš rozhodovací strom na základě údajů, které máme. Rozdělili jsme tedy rozhodovací strom do dvou úrovní, první je založen na atributu „Počasí“ a druhý řádek je založen na „Vlhkost“ a „Vítr“. Níže uvedené obrázky ilustrují naučený strom rozhodování.

Můžeme také nastavit některé prahové hodnoty, pokud jsou funkce spojité.

Co je entropie v rozhodovacím stromovém algoritmu?

Jednoduše řečeno, entropie je měřítkem toho, jak jsou vaše data narušena. I když jste tento termín slyšeli ve svých hodinách matematiky nebo fyziky, je to stejné zde.

Důvod, proč se entropie používá ve stromě rozhodování, je ten, že konečným cílem ve stromě rozhodování je seskupení podobných datových skupin do podobných tříd, tj. Uklizení dat.

Podívejme se na níže uvedený obrázek, kde máme počáteční datový soubor a musíme použít algoritmus rozhodovacího stromu, abychom mohli seskupit podobné datové body do jedné kategorie.

Jak je jasně vidět, po rozdělení rozhodnutí většina červených kruhů spadá do jedné třídy, zatímco většina modrých křížů spadá do jiné třídy. Proto bylo rozhodnuto klasifikovat atributy, které by mohly být založeny na různých faktorech.

Nyní zkusme udělat nějakou matematiku tady:

Řekněme, že máme „N“ sady položek a tyto položky spadají do dvou kategorií. Nyní za účelem seskupení dat na základě štítků zavedeme poměr:

Entropie naší množiny je dána následující rovnicí:

Podívejme se na graf pro danou rovnici:

Nad obrázkem (s p = 0, 5 a q = 0, 5)

Výhody

1. Rozhodovací strom je snadno pochopitelný a jakmile je pochopen, můžeme jej zkonstruovat.

2. Můžeme implementovat rozhodovací strom na numerických i kategorických datech.

3. Rozhodovací strom je prokázán jako robustní model se slibnými výsledky.

4. Jsou také časově efektivní s velkými daty.

5. Vyžaduje menší úsilí při školení údajů.

Nevýhody

1. Nestabilita - Pouze pokud jsou informace přesné a přesné, rozhodovací strom přinese slibné výsledky. I když dojde k mírné změně vstupních dat, může to způsobit velké změny ve stromu.

2. Složitost - Pokud je datový soubor obrovský s mnoha sloupci a řádky, je velmi složitým úkolem navrhnout strom rozhodování s mnoha větvemi.

3. Náklady - Někdy náklady také zůstávají hlavním faktorem, protože když je nutné sestavit složitý strom rozhodování, vyžaduje pokročilé znalosti v kvantitativní a statistické analýze.

Závěr

V tomto článku jsme se dozvěděli o algoritmu stromu rozhodování a o tom, jak jej zkonstruovat. Viděli jsme také velkou roli, kterou hraje entropie v algoritmu rozhodovacího stromu, a nakonec jsme viděli výhody a nevýhody rozhodovacího stromu.

Doporučené články

Toto byl průvodce Algoritmem rozhodovacího stromu. Zde jsme diskutovali o roli, kterou hrají Entropie, Práce, Výhody a Nevýhoda. Další informace naleznete také v dalších navrhovaných článcích -

  1. Důležité metody dolování dat
  2. Co je webová aplikace?
  3. Průvodce Co je to Data Science?
  4. Rozhovor s analytiky dat
  5. Aplikace rozhodovacího stromu při těžbě dat

Kategorie: