Úvod k vytvoření stromu rozhodování

Vzhledem k nedávnému rychlému nárůstu množství dat generovaných informačními systémy, aby bylo možné zpracovat velké soubory dat, existuje rozhodující potřeba, aby rozhodovací strom snížil složitost výpočtu. Rozhodovací strom lze považovat za nejdůležitější přístup k reprezentaci klasifikátorů. Jinými slovy, můžeme říci, že data jsou strukturována pomocí strategie rozdělení a dobytí. vědět, že jsme prozkoumali pouze. Strom rozhodování je strukturován jako rámec pro přesné hodnoty a pravděpodobnost výstupních rozhodnutí

m každá úroveň uzlu, která pomáhá tvůrcům rozhodnutí vybrat si správné předpovědi mezi různými nevhodnými daty. V tomto článku si jednoduchým způsobem projdete, jak vytvořit strom rozhodování založený na vzorových datech.

Co je rozhodovací strom?

Rozhodovací strom je binární hierarchická struktura, která identifikuje způsob, jakým každý uzel rozděluje datovou sadu na základě různých podmínek. Vytvoření optimálního stromu pomocí modelového přístupu k klasifikaci proměnné odezvy, která předpovídá hodnotu cílové proměnné pomocí jednoduchých rozhodovacích pravidel (příkazů if-then-else). Tento přístup je řízené učení, které se většinou používá při klasifikačních problémech a je považováno za velmi účinný prediktivní model. Používají se v různých aplikačních doménách, jako je teorie her, umělá inteligence, strojové učení, těžba dat a oblasti jako bezpečnost a medicína.

Jak vytvořit rozhodovací strom?

Strom rozhodování je vytvořen jednoduchým způsobem shora dolů; sestávají z uzlů, které tvoří směrovaný uzel, který má kořenové uzly bez příchozích hran, všechny ostatní uzly se nazývají rozhodovací uzly (interní uzly a listové uzly, které odpovídají atributům a značkám tříd) s alespoň jednou příchozími hranami. Hlavním cílem ze souborů dat je minimalizovat chyby generalizace nalezením optimálního řešení ve stromu rozhodování.

Příklad stromu rozhodnutí je vysvětlen níže s ukázkovou datovou sadou. Cílem je předpovědět, zda zisk klesá nebo stoupá pomocí atributů života a konkurence. Zde jsou proměnné stromu rozhodnutí kategorické (Ano, Ne).

Soubor dat

Život Soutěž Typ Zisk
Starý Ano Software Dolů
Starý Ne Software Dolů
Starý Ne Hardware Dolů
Střední Ano Software Dolů
Střední Ano Hardware Dolů
Střední Ne Hardware Nahoru
Střední Ne Software Nahoru
Nový Ano Software Nahoru
Nový Ne Hardware Nahoru
Nový Ne Software Nahoru

Z výše uvedeného souboru údajů: život, konkurence, typ jsou prediktory a cíl atributu je cíl. Pro implementaci rozhodovacího stromu existují různé algoritmy, ale nejlepším algoritmem použitým pro sestavení rozhodovacího stromu je ID3, které kladou důraz na chamtivý vyhledávací přístup. Strom rozhodování následuje pravidlo odvození rozhodnutí nebo disjunktivní normální formu (^).

Rozhodovací strom

Zpočátku je veškerý atribut školení považován za kořenový adresář. Priorita pořadí pro umístění atributů jako root se provádí pomocí následujícího přístupu. O tomto procesu je známo, že vybírá atribut k identifikaci, který atribut je vytvořen jako kořenový uzel na každé úrovni. Strom následuje dva kroky: konstrukce stromu, prořezávání stromu. A data jsou rozdělena do všech rozhodovacích uzlů.

Informační zisk

Je to měřítko změny entropie založené na nezávislé proměnné. Strom rozhodování musí najít nejvyšší zisk informací.

Entropie

Entropie je definována jako konečná množina, míra náhodnosti v datech nebo předvídatelnost události, pokud je vzorek podobnými hodnotami, pak entropie je nula a pokud je stejně rozdělena se vzorkem, pak je jedna.

Entropie pro třídu

Kde p je pravděpodobnost zisku, když řekneme „ano“ a N je ztráta, řekni „ne“.

entropie = 1

Po výpočtu hodnoty entropie je třeba z atributu rozhodnout o kořenovém uzlu.

Entropie věku

Podle datového souboru pro atribut Život máme staré = 3 dolů, střední = 2 dolů a jedno nahoru týkající se ziskové značky.

Život Pi ni Já (pi, ni)
Starý 0 3 0
Střední 2 2 1
Nový 3 0 0

Zisk = Entropie třídy - Entropie života = 1 - 0, 4 = 0, 6

Entropie (soutěž) = 0, 87

Soutěž Pi ni Já (pi, ni)
Ano 1 3 0, 8
Ne 4 2 0, 9

Zisk = Entropie třídy - Entropie života = 1 - 0, 87 = 0, 12

Teď problém vyvstává v atributu Život, kde má polovina stejnou pravděpodobnost jak nahoru, tak dolů. entropie je tedy 1. podobně je počítána pro atribut type, entropie je 1 a zisk je 0. Nyní bylo vytvořeno úplné rozhodnutí, aby se získal přesný výsledek pro střední hodnotu.

Výhody rozhodovacího stromu

  • Jsou snadno srozumitelné a generovaná pravidla jsou flexibilní. Má malou snahu o přípravu dat.
  • Vizuální přístup k reprezentaci rozhodnutí a výsledků je velmi užitečný.
  • Strom rozhodnutí zpracovává sadu tréninkových dat s chybami a chybějícími hodnotami.
  • Umí zpracovat diskrétní hodnotu a numerický atribut. Funguje kategorické a spojité proměnné pro vstup a výstup.
  • Jsou užitečným nástrojem pro obchodní oblast, která musí za určitých podmínek přijímat rozhodnutí.

Nevýhody rozhodovacího stromu

  • Žáci mohou vytvořit složitý strom rozhodování v závislosti na školených datech. tento proces je v modelech rozhodovacích stromů označován jako overfitting.
  • Preferované hodnoty jsou kategorické, pokud je kontinuální, strom rozhodování ztrácí informace, které vedou k náchylnosti k chybám. Exponenciální růst výpočtu je při analýze vyšší.
  • Mnoho popisků tříd vede k nesprávným složitým výpočtům a poskytuje nízkou přesnost predikce datové sady.
  • Informace získané algoritmem DT poskytují zkreslenou odpověď na kategoricky vyšší hodnoty.

Závěr

Závěrem lze říci, že rozhodovací stromy poskytují praktickou a snadnou metodu učení a jsou velmi známé jako účinné nástroje pro strojové učení, protože v krátké době fungují dobře s velkými datovými soubory. Je to učební úkol, který používá statistický přístup k obecnému závěru. Nyní je lépe pochopeno, proč je strom rozhodování používán v prediktivním modelování a pro vědce dat jsou mocným nástrojem.

Doporučené články

Toto je průvodce vytvořením stromu rozhodnutí. Zde diskutujeme o tom, jak vytvořit rozhodovací strom spolu s různými výhodami a nevýhodami. Další informace naleznete také v dalších navrhovaných článcích -

  1. Přehled rozhodovacího stromu v R
  2. Co je algoritmus rozhodovacího stromu?
  3. Úvod do nástrojů umělé inteligence
  4. 10 hlavních otázek týkajících se umělé inteligence

Kategorie: