Algoritmy pro vědu o datech Přehled a typy algoritmů datové vědy

Úvod do algoritmů pro vědu o datech

Popis základních algoritmů používaných v Data Science na vysoké úrovni. Jak již víte, věda o údajích je oborem, kde se rozhoduje na základě poznatků, které získáme z údajů, namísto klasických deterministických přístupů založených na pravidlech. Typicky můžeme úkol strojového učení rozdělit do tří částí

Získání dat a zmapování obchodního problému,
Aplikace technik strojového učení a sledování metriky výkonu
Testování a nasazení modelu

V tomto celém životním cyklu používáme různé algoritmy datové vědy k vyřešení úkolu. V tomto článku rozdělíme nejčastěji používané algoritmy na základě jejich typů učení a budeme o nich diskutovat na vysoké úrovni.

Typy algoritmů pro vědu o datech

Na základě metodik učení můžeme jednoduše rozdělit algoritmy strojového učení nebo datové vědy do následujících typů

Algoritmy pod dohledem
Algoritmy bez dozoru

1. Algoritmy pod dohledem

Jak už název napovídá, supervidované algoritmy jsou třídou algoritmů strojového učení, kde je model trénován se značenými daty. Například na základě historických údajů chcete předpovídat, že zákazník půjčku splácí, nebo ne. Po provedení předzpracování a funkce označených dat jsou dohlížené algoritmy proškoleny nad strukturovanými daty a testovány v novém datovém bodu nebo v tomto případě předpovídat splátce úvěru. Pojďme se ponořit do nejpopulárnějších dohlížených algoritmů strojového učení.

K Nejbližší sousedé

K nejbližší sousedé (KNN) je jedním z nejjednodušších, ale výkonných algoritmů strojového učení. Jde o kontrolovaný algoritmus, kde se klasifikace provádí na základě k nejbližších datových bodů. Myšlenka za KNN je taková, že podobné body jsou seskupeny dohromady, měřením vlastností nejbližších datových bodů můžeme klasifikovat testovací datový bod. Například řešíme problém standardní klasifikace, kde chceme předpovídat, že datový bod patří do třídy A nebo třídy B.Let k = 3, nyní otestujeme 3 nejbližší datový bod testovacího datového bodu, pokud dva z nich patří do třídy A prohlásíme testovací datový bod za třídu A, jinak třídu B. Správná hodnota K se zjistí křížovou validací. Má lineární složitost času, a proto jej nelze použít pro aplikace s nízkou latencí.

Lineární regrese

Lineární regrese je dohlížený algoritmus datové vědy.

Výstup:

Proměnná je spojitá. Cílem je najít hyperplán, kde maximální počet bodů leží v hyperplánu. Například předpovídání množství deště je standardní regresní problém, kde lze použít lineární regresi. Lineární regrese předpokládá, že vztah mezi nezávislými a závislými proměnnými je lineární a existuje jen velmi malá nebo žádná multicollinearita.

Logistická regrese

Ačkoli jméno říká regrese, logistická regrese je klasifikovaný algoritmus pod dohledem.

Výstup:

Geometrická intuice je, že můžeme oddělit různé štítky třídy pomocí lineární hranice rozhodnutí. Výstupní proměnná logistické regrese je kategorická. Vezměte prosím na vědomí, že nemůžeme použít střední kvadratickou chybu jako nákladovou funkci pro logistickou regresi, protože pro logistickou regresi není nekonvexní.

Podpora Vector Machine

V logistické regresi bylo naším hlavním mottem najít oddělovací lineární povrch.

Výstup:

Můžeme považovat vektorový stroj podpory za rozšíření této myšlenky, kde musíme najít hyperplán, který maximalizuje okraj. Co je ale marže? Pro vektor W (rozhodovací plochu, kterou musíme přijít) nakreslíme dvě rovnoběžné čáry na obou stranách. Vzdálenost mezi těmito dvěma řádky se nazývá okraj. SVM předpokládá, že data jsou lineárně oddělitelná. Přestože můžeme SVM použít pro nelineární data také pomocí triku jádra.

Rozhodovací strom

Rozhodovací strom je vnořený klasifikátor založený na If-Else, který používá k vytvoření rozhodnutí stromovou strukturu grafu. Rozhodovací stromy jsou velmi populární a jsou jedním z nejpoužívanějších dohlížecích algoritmů strojového učení v celé oblasti vědy o datech. Poskytuje lepší stabilitu a přesnost ve většině případů srovnatelně než jiné dohlížející algoritmy a robustní pro odlehlé hodnoty. Výstupní proměnná stromu rozhodování je obvykle kategorická, ale může být také použita k řešení regresních problémů.

Soubory

Soubory jsou populární kategorií algoritmů pro vědu o datech, kde se k dosažení lepšího výkonu používá společně více modelů. Pokud jste obeznámeni s Kaggle (platforma Google pro nácvik a soutěžení v problémech s vědou o údajích), najdete většinu výherců řešení, která používají nějaký druh souborů.

Soubory můžeme zhruba rozdělit do následujících kategorií

Pytlování
Posílení
Stohování
Kaskádování

Random Forest, Tree Gradient Boosting Decision Trees jsou příklady některých populárních algoritmů souboru.

2. Algoritmy bez dozoru

Algoritmy bez dozoru se používají pro úkoly, u nichž jsou data neznačená. Nejoblíbenějším případem použití bezohledových algoritmů je shlukování. Clustering je úkolem seskupování podobných datových bodů bez ručního zásahu. Pojďme si zde prohlédnout některé z populárních bezohledných algoritmů strojového učení

K znamená

K Means je randomizovaný bezohledový algoritmus používaný pro klastrování. K znamená následující kroky

1.Nicializujte K body náhodně (c1, c2..ck)

2. Pro každý bod (Xi) v sadě dat

Vyberte nejbližší Ci (i = 1, 2, 3..k)

Přidejte Xi k Ci

3. Znovu zkomprimujte centroid pomocí správných metrik (tj. Intracluster distance)

4, Opakujte krok (2) (3), dokud se nespojí

K znamená ++

Inicializační krok v K znamená je čistě náhodný a na základě inicializace se shlukování drasticky mění. K znamená ++ řeší tento problém inicializací k pravděpodobným způsobem namísto čisté randomizace. K znamená ++ je stabilnější než klasické K znamená.

K Medoids:

K medoidy jsou také shlukový algoritmus založený na prostředcích K. Hlavní rozdíl mezi těmito dvěma je, že centroidy K prostředků nemusí nutně existovat v datové sadě, což neplatí pro K medoidy. K medoidy K nabízejí lepší interpretovatelnost shluků. K znamená minimalizaci celkové kvadratické chyby, zatímco K medoidy minimalizují rozdílnost mezi body.

Závěr

V tomto článku jsme diskutovali nejoblíbenější algoritmy strojového učení používané v oblasti vědy o datech. Po všech těchto, může vám přijde otázka, že ' Který algoritmus je nejlepší? " Je zřejmé, že zde není žádný vítěz." Závisí to pouze na aktuálním úkolu a obchodních požadavcích. Jako nejlepší postup vždy začíná nejjednodušším algoritmem a postupně se zvyšuje složitost.

Doporučené články

Toto byl průvodce algoritmy Data Science Algorithms. Zde diskutujeme přehled algoritmů datové vědy a dva typy algoritmů datové vědy. Další informace naleznete také v našich článcích.