Úvod do rozhodovacího stromu ve strojovém učení

Rozhodovací strom ve strojovém učení má v moderním světě široké pole. V ML je mnoho algoritmů, které se používají v našem každodenním životě. Jedním z důležitých algoritmů je rozhodovací strom, který se používá pro klasifikaci a také řešení regresních problémů. Protože se jedná o prediktivní model, je analýza rozhodovacích stromů prováděna pomocí algoritmického přístupu, kde je sada dat rozdělena do podskupin podle podmínek. Samotný název říká, že se jedná o stromový model ve formě příkazů if-then-else. Čím hlouběji je strom, tím více uzlů, tím lepší je model.

Druhy rozhodovacího stromu ve strojovém učení

Rozhodovací strom je stromový graf, kde třídění začíná od kořenového uzlu k uzlu listu, dokud není dosaženo cíle. Je to nejpopulárnější pro rozhodování a klasifikaci na základě dohlížejících algoritmů. Je konstruován rekurzivním dělením, kde každý uzel funguje jako testovací případ pro některé atributy a každá hrana, odvozená od uzlu, je možnou odpovědí v testovacím případě. Kořenový i listový uzel jsou dvě entity algoritmu.

Pojďme pochopit pomocí malého příkladu takto:

Zde je kořenový uzel, zda máte méně než 40 nebo ne. Pokud ano, tak jíte rychlé občerstvení? Pokud ano, pak jste nezpůsobilí, jinak jste v pořádku. A pokud máte více než 40 let, děláte cvičení? Pokud ano, pak jste fit nebo jinak jste nezpůsobilí. Jednalo se v podstatě o binární klasifikaci.

Existují dva typy rozhodovacích stromů:

  1. Klasifikační stromy: Výše uvedený příklad je klasifikační strom založený na kategoriích.
  2. Regresní stromy : U tohoto typu algoritmu je rozhodnutí nebo výsledek nepřetržité. Má jediný číselný výstup s více vstupy nebo prediktory.

Ve stromu rozhodnutí je typickou výzvou identifikovat atribut v každém uzlu. Proces se nazývá výběr atributů a má určitá opatření, která se mají použít k identifikaci atributu.

A. Informační zisk (IG)

Information Gain měří, kolik informací poskytuje jednotlivá funkce o třídě. Působí jako hlavní klíč k vytvoření stromu rozhodnutí. Nejprve se rozdělí atribut s nejvyšším ziskem informací. Rozhodovací strom tedy vždy maximalizuje zisk informací. Když pomocí uzlu rozdělíme instance do menších podmnožin, entropie se změní.

Entropie: Je to míra nejistoty nebo nečistoty v náhodné proměnné. Entropie rozhoduje o tom, jak strom rozhodování rozdělí data do podskupin.

Rovnice pro získávání informací a entropii jsou následující:

Informační zisk = entropie (rodič) - (vážený průměr * entropie (děti))

Entropie: ∑p (X) log p (X)

P (X) je zlomek příkladů v dané třídě.

b. Index Gini

Index Gini je metrika, která určuje, jak často bude náhodně vybraný prvek nesprávně identifikován. Jasně se uvádí, že atribut s nízkým indexem Gini je dána první přednost.

Index Gini: 1-∑ p (X) 2

Rozdělené stvoření

  1. Abychom vytvořili rozdělení, musíme nejprve vypočítat Giniho skóre.
  2. Data jsou rozdělena pomocí seznamu řádků, které mají index atributu a rozdělenou hodnotu tohoto atributu. Poté, co je nalezen pravý a levý dataset, můžeme získat dělenou hodnotu podle Giniho skóre z první části. Nyní bude rozdělená hodnota rozhodovacím místem, kde bude umístěn atribut.
  3. Další část je vyhodnocení všech rozdělení. Nejlepší možná hodnota se vypočítá vyhodnocením nákladů na rozdělení. Nejlepší rozdělení se používá jako uzel stromu rozhodování.

Budování stromu - rozhodovací strom ve strojovém učení

Vytvoření rozhodovacího stromu jsou dva kroky.

1. Vytvoření koncového uzlu

Při vytváření koncového uzlu je nejdůležitější poznamenat, zda musíme zastavit růst stromů nebo pokračovat dále. K tomu lze použít následující způsoby:

  • Maximální hloubka stromu: Když strom dosáhne maximálního počtu uzlů, provádění se tam zastaví.
  • Minimální záznamy uzlů: Lze definovat jako minimum vzorů, které uzel vyžaduje. Poté můžeme zastavit přidávání terminálových uzlů okamžitě a získáme tyto minimální záznamy uzlů.

2. Rekurzivní rozdělení

Jakmile je uzel vytvořen, můžeme vytvořit podřízený uzel rekurzivně rozdělením datové sady a vyvoláním stejné funkce vícekrát.

Předpověď

Po vytvoření stromu je predikce prováděna pomocí rekurzivní funkce. Stejný proces predikce je opět sledován s levými nebo pravými podřízenými uzly atd.

Výhody a nevýhody rozhodovacího stromu

Níže jsou uvedeny některé výhody a nevýhody:

Výhody

Rozhodovací strom má v strojovém učení následující výhody:

  • Komplexní: Zohledňuje každý možný výsledek rozhodnutí a podle toho sleduje každý uzel až k závěru.
  • Specifické: Rozhodovací stromy přiřazují každému problému, rozhodnutí a výsledkům specifickou hodnotu. Snižuje nejistotu a nejednoznačnost a také zvyšuje jasnost.
  • Jednoduchost: Rozhodovací strom je jedním z jednodušších a spolehlivějších algoritmů, protože nemá složité vzorce nebo datové struktury. K výpočtu jsou zapotřebí pouze jednoduché statistiky a matematika.
  • Všestrannost: Rozhodovací stromy mohou být konstruovány ručně pomocí matematiky a také mohou být použity s jinými počítačovými programy.

Nevýhody

Rozhodovací strom má v strojovém učení následující nevýhody:

  • Rozhodovací stromy jsou pro odhady a finanční úkoly méně vhodné tam, kde potřebujeme odpovídající hodnoty.
  • Je to klasifikační algoritmus náchylný k chybám ve srovnání s jinými výpočetními algoritmy.
  • Je to výpočetně drahé. V každém uzlu musí být rozdělení uchazečů tříděno před tím, než se zjistí nejlepší. Existuje mnoho alternativ, které mnoho podnikatelských subjektů dodržuje pro finanční úkoly, protože rozhodovací strom je pro hodnocení příliš drahý.
  • Při práci s kontinuálními proměnnými není rozhodovací strom vhodný jako nejlepší řešení, protože má tendenci ztratit informace při kategorizaci proměnných.
  • Někdy je nestabilní, protože malé odchylky v sadě dat mohou vést k vytvoření nového stromu.

Závěr - Rozhodovací strom ve strojovém učení

Jako jeden z nejdůležitějších a dohlížených algoritmů hraje rozhodovací strom zásadní roli v rozhodovací analýze v reálném životě. Jako prediktivní model se používá v mnoha oblastech pro svůj splitový přístup, který pomáhá při identifikaci řešení založených na různých podmínkách klasifikační nebo regresní metodou.

Doporučené články

Toto je průvodce rozhodovacím stromem ve strojovém učení. Zde diskutujeme úvod, Druhy rozhodovacích stromů ve strojovém učení, Tvorba rozdělení a Stavba stromu. Další informace naleznete také v dalších navrhovaných článcích -

  1. Datové typy Python
  2. Datové sady Tableau
  3. Cassandra Data Modeling
  4. Testování tabulky rozhodnutí
  5. 8 hlavních fází životního cyklu strojového učení

Kategorie: