Úvod do strojového učení datových věd

Údaje jsou v zásadě informace, zejména fakta nebo čísla, které se shromažďují ke zkoumání a posuzování a používají se pro pomoc při rozhodování nebo informace v elektronické podobě, které mohou být uloženy a použity počítačem. Nyní se naučíme definici Data Science a Machine Learning.

Data Science (DS) : Jedná se o velmi široké pole, kde se různé techniky, jako jsou statistické metody, vědecké přístupy, architektonické procesy, různé algoritmy, používají k získávání podrobných informací z dostupných údajů, kterými mohou být strukturovaná data nebo nestrukturovaná data.

Machine Learning ( ML ): Jedná se o podmnožinu Data Science. Při strojovém učení se v zásadě pomocí statistických modelů a různých algoritmů cvičí stroje bez udávání explicitních pokynů, spoléhá se na vzory vytvořené pomocí dat. “

Význam vědy o datech

  • Žijeme ve věku technologie, kde každá osoba nějakým způsobem nebo jiným používá technologii pro pohodlí / efektivitu / snadnost, např. Mobilní telefon / Notebooky / Tablety pro komunikaci, automobily / vlaky / autobusy / letadla pro přepravu, služby jako bankovnictví / elektřina a mnoho dalších pro snadnější život.
  • Při každé takové příležitosti vytváříme data vědomě nebo nevědomky, jako jsou protokoly hovorů / texty / sociální média - všechny obrázky, videa / blogy jsou součástí dat, s dopravou naše navigace na různá místa pomocí GPS / výkon vozidla zaznamenaného prostřednictvím ECU je také část dat. Naše transakce v bankovnictví a mobilních peněženkách vytvářejí obrovské množství dat, součástí dat je také spotřeba elektřiny v jakékoli oblasti nebo sektoru.
  • A tyto údaje rostou exponenciálně den za dnem nebo minutou za minutou.
  • Nyní vyvstává otázka, můžeme s těmito údaji něco udělat? Můžeme použít tato data k poskytnutí některých užitečných informací? Můžeme zvýšit účinnost? Můžeme tyto údaje použít k předpovídání budoucích výsledků?
  • K zodpovězení všech takových otázek máme pole zvané data science.
  • Data Science lze považovat za široké pole, které zahrnuje dolování dat, datové inženýrství, vizualizaci dat, statistické metody integrace dat, programování R / python / SQL, strojové učení, velká data a další.

Nyní pojďme porozumět důležitým konceptům datové vědy.

1. Datové inženýrství

Datové inženýrství je jedním z aspektů datové vědy, který se zaměřuje hlavně na aplikace dat, sběr dat a analýzu dat. Veškerá práce, kterou vědci provádějí, ráda zodpovídá několik otázek souvisejících s předpovědi nebo analýzou, využívá velké množství informací.

Nyní potřebují správné a užitečné informace, které vytvářejí potřebu shromažďovat a ověřovat dostupné informace. To vše je součástí inženýrských úkolů. Některé z těchto úkolů jsou kontrola nulových hodnot (chybějící data), kategorizace dat (kategorická data), vytváření datových struktur (pravidla přidružení) atd.

2. Vizualizace dat

Vizualizace dat je grafický přístup k reprezentaci dat. Zde používáme vestavěnou knihovnu Pythonu k tvorbě vizuálních prvků, například tabulek, korelačních tabulek, sloupcových grafů, párových grafů atd. Vizualizace dat hraje velmi důležitou roli při poskytování velmi snadného způsobu analýzy dat, vidění a porozumění trendům, postavy outliers atd.

3. Statistické porozumění

Statistiky hrají velmi důležitou roli v oblasti datových věd. Statistika je velmi výkonný nástroj pro plnění úkolů Data Science (DS). Statistiky používají matematiku k technické analýze dostupných informací. S vizualizacemi, jako je sloupec nebo graf, můžeme získat informace o trendu, ale statistika nám pomáhá pracovat s daty matematickým / cíleným způsobem. Bez znalosti dat je vědecká vizualizace jen hádáním.

Budeme diskutovat o některých důležitých statistických metodách, které vědci využívají denně.

  • Průměr: Průměr je v podstatě průměr všech dat, vypočtený sčítáním všech prvků dat a poté jejich dělením počtem prvků. Používá se pro identifikaci středové hodnoty všech prvků.
  • Medián: Medián se používá také k nalezení středové hodnoty dostupných prvků, ale zde jsou všechna data uspořádána v pořadí a přesná střední hodnota je považována za medián.

Pokud je počet prvků lichý, pak je medián ((n + 1) / 2) th . Je-li několik prvků sudých, bude medián ((n / 2) + 1) th .

  • Režim: Režim je statistický parametr, který poukazuje na nejčastější nebo na hodnotu, která se objevuje nejvíce, je považováno za režim.
  • Standardní odchylka: Standardní odchylka udává, jak velké rozpětí je v datech, nebo je to měření definující rozpětí od průměrných hodnot nebo průměrných hodnot nebo očekávaných hodnot.

V případě, že máme nízkou standardní odchylku, znamená to, že většina datových hodnot je blízko průměrné hodnoty. Pokud máme vysokou směrodatnou odchylku, znamená to, že hodnoty našich dat jsou rozprostřeny od střední hodnoty.

  • Variace: rozptyl je stejný jako směrodatná odchylka s malým rozdílem, je to čtverec směrodatné odchylky. Standardní odchylka je odvozena z rozptylu, protože směrodatná odchylka ukazuje rozptyl v datech, zatímco rozptyl ukazuje rozptyl s druhou mocninou. Je snadné korelovat šíření pomocí rozptylu.
  • Korelace: Korelace je jedním z nejdůležitějších statistických ukazatelů, ukazuje, jak proměnné v souboru dat spolu souvisí. Když změníme jeden parametr, jak to ovlivní druhý parametr.

Pokud máme kladnou korelační hodnotu, což znamená, že se proměnné budou paralelně zvyšovat nebo snižovat

Pokud máme zápornou korelační hodnotu, což znamená, že se proměnné budou chovat inverzně na přírůstek jednoho druhého, sníží se a naopak.

Ve statistice máme rozdělení pravděpodobnosti, bayesovskou statistiku a testování hypotéz, které jsou také velmi důležitými nástroji pro datové vědce.

Strojové učení

Strojové učení v podstatě znamená způsob, kterým mohou stroje učit a produkovat výstup na základě vstupních funkcí.

Definice: „Strojové učení je obor, kde se počítač učí z dostupných dat / historických dat, aniž by byl explicitně programován“

Ve strojovém učení se zaměřujeme na automatizaci a zlepšování procesu učení počítačů na základě jejich vstupních datových zkušeností a nebudeme programovat program explicitně pro každý typ problému, tj. Stroj zjistí, jak k problému přistupovat. Zde nemusí být výsledky přesné, ale lze provést dobrou předpověď.
Rozumíme tomu takto:

Počítače se tradičně používají k usnadnění procesu výpočtu. takže pokud máme aritmetický výpočet. Co budeme dělat? Připravíme jeden počítačový program, který tuto operaci vyřeší snadným a rychlým způsobem. Například pokud chceme přidat dvě entity, vytvoříme jeden kus softwarového kódu, který vezme dva vstupy a na výstupu zobrazí součet.

Ve strojovém učení je přístup odlišný místo podávání přímého algoritmu, do algoritmu je vložen speciální algoritmus, který se pokusí rozpoznat vzorec a na základě těchto vzorců se pokusí předpovídat nejlepší možný výstup. Zde nekódujeme žádný algoritmus výslovně pro žádnou konkrétní operaci, místo toho dodáváme data do stroje, abychom zjistili, jaký je vzorec a jaký by mohl být výstup.

Proč tedy musíme jít za tímto přístupem, když můžeme přímo získat přesné výsledky pouhým kódováním přesného algoritmu? Přesné algoritmy jsou komplexní a jsou omezené. Podívejme se na to z jiného úhlu pohledu, jedná se o období, kdy máme velké množství dat a každý den exploduje, jak jsme diskutovali v předchozí části. Zde se zabýváme supervidovaným a nedohledávaným učením.

Strojové učení je dnes v akutním zájmu, protože máme dostatek dat. Abychom měli tato data smysl, potřebujeme nějaké smysluplné výsledky nebo nějaké smysluplné vzorce, které lze analyzovat a uvést do praxe.

Ale přesto, proč nás zajímá strojové učení a tato data?

Víme, že lidstvo jen nahrazuje historii, jako bychom byli stejní jako předchozí generace, a naši potomci budou také čelit několika situacím, kterým nyní čelíme nebo kterým čelíme. V této fázi si musíme představit, jak reagovat do budoucna pomocí historických dat.
Teď víme, že data jsou velmi cenným aktivem.

Výzva je, jak nejlépe můžeme využít tato dostupná data?

Toto je nejzajímavější téma (Jak?), Kde se chystáme objasnit dostupná data. Pro strojové učení existují v zásadě 3 přístupy:

  • Dozorované učení
  • Bez dozoru
  • Posílení učení

Tyto tři přístupy se používají k vytvoření modelu strojového učení, jako je (lineární regrese, logistická regrese, náhodný les, rozhodovací stromy atd.).

Existuje celá řada aplikací těchto modelů strojového učení, například:

  • Finance: detekce podvodů
  • Marketing / Prodej: přizpůsobte doporučení
  • Zdravotní péče: identifikujte trend nemoci.

Závěr - Data Science Machine Learning

  • Data Science je široké pole, jehož strojové učení je podmnožinou. V této analýze analyzujeme historické údaje, které máme k dispozici, a snažíme se předpovídat nejpravděpodobnější budoucí výsledky.
  • Abychom předpovídali, musíme data vyčistit, uspořádat data (datové inženýrství). S daty v ruce vizualizujeme vzorec / trendy a poté se statistickým porozuměním odvodíme důkladné informace.
  • Tato data budou přivedena do stroje pomocí algoritmu Machine learning.
  • Tyto algoritmy trénují stroj a vytvářejí jeden model strojového učení.
  • Tento model pak lze použít pro predikci.

Doporučené články

Toto je průvodce strojem Data Science Machine Learning. Zde diskutujeme význam datové vědy spolu se strojovým učením. Další informace naleznete také v následujících článcích -

  1. Nejlepší programy pro vědu o datech
  2. Dovednosti v oblasti datových věd
  3. Jazyky vědy o údajích
  4. Techniky strojového učení
  5. Co je integrace dat?
  6. Jak je sloupcový graf používán v Matlabu (příklady)
  7. Rozhodovací strom ve strojovém učení
  8. Jednoduché způsoby, jak vytvořit strom rozhodování

Kategorie: