Rozdíl mezi datovou vědou a strojovým učením

Datová věda je evoluční rozšíření statistik schopných vypořádat se s obrovským množstvím pomocí technologií informatiky. Strojové učení je obor, který umožňuje počítačům učit se, aniž by byl výslovně naprogramován. Datová věda zahrnuje širokou škálu datových technologií včetně SQL, Python, R a Hadoop, Spark atd. Strojové učení je vnímáno jako proces, lze jej definovat jako proces, pomocí kterého může počítač přesněji pracovat, když shromažďuje a se učí z údajů, které jsou uvedeny.

Porovnání údajů o vědě s údaji v porovnání se strojovým učením (infografika)

Níže je pět nejlepších srovnání mezi Data Science vs Machine Learning

Klíčový rozdíl mezi Data Science vs Machine Learning

Níže je uveden rozdíl mezi Data Science a Machine Learning

  • Komponenty - Jak již bylo zmíněno výše, systémy Data Science pokrývají celý životní cyklus dat a obvykle obsahují komponenty, které pokrývají následující:
    • Sběr a profilování dat - potrubí ETL (Extract Transform Load Load) a profilovací práce
    • Distribuované výpočty - Horizontálně škálovatelná distribuce a zpracování dat
    • Automatizační inteligence - Automatizované ML modely pro online odpovědi (predikce, doporučení) a detekci podvodů.
    • Vizualizace dat - Vizuálně prozkoumejte data, abyste získali lepší intuici dat. Nedílná součást ML modelování.
    • Řídicí panely a BI - Předdefinované řídicí panely s možností řezů a kostek pro zúčastněné strany na vyšší úrovni.
    • Datové inženýrství - Zajistěte, aby horká a studená data byla vždy přístupná. Zahrnuje zálohování dat, zabezpečení, zotavení po havárii
    • Nasazení v produkčním režimu - Přeneste systém do výroby pomocí standardních postupů.
    • Automatizovaná rozhodnutí - To zahrnuje provozování obchodní logiky nad daty nebo složitý matematický model trénovaný pomocí jakéhokoli algoritmu ML.

Modelování strojového učení začíná daty a typické komponenty jsou následující:

  • Porozumět problému - Ujistěte se, že efektivní způsob řešení problému je ML. Všimněte si, že ne všechny problémy řešitelné pomocí ML.
  • Prozkoumat data - Chcete-li získat intuici funkcí, které mají být použity v ML modelu.To může vyžadovat více než jednu iteraci. Vizualizace dat zde hraje rozhodující roli.
  • Příprava dat - Jedná se o důležitou fázi s velkým dopadem na přesnost modelu ML. Zabývá se problémem s údaji, například co dělat s chybějícími daty pro určitou funkci? Nahradit falešnou hodnotu, jako je nula, nebo střední hodnotu z jiných hodnot nebo zrušit funkci z modelu ?. Funkce škálování, která zajišťuje, že hodnoty všech funkcí jsou ve stejném rozsahu, je pro mnoho modelů ML kritická. Mnoho odvozených technik, jako je generování polynomů, se zde také používá k odvozování nových funkcí.
  • Vyberte model a vlak - Model je vybrán na základě typu problému (Predikce nebo klasifikace atd.) A typu sady funkcí (některé algoritmy pracují s malým počtem instancí s velkým počtem funkcí a jiné v jiných případech) .
  • Měření výkonu - Ve vědě o údajích nejsou výkonnostní míry standardizovány, budou se měnit případ od případu. Obvykle se jedná o indikaci včasnosti dat, kvality dat, schopnosti dotazování, limitů souběžnosti v přístupu k datům, schopnosti interaktivní vizualizace atd.

V ML modelech jsou výkonnostní míry křišťálově čisté. Každý algoritmus bude mít opatření k označení toho, jak dobře nebo špatně model popisuje poskytnuté údaje o tréninku. Například RME (Root Mean Square Error) se používá v lineární regresi jako indikace chyba v modelu.

  • Metodika vývoje - Projekty Data Science jsou sladěny spíše jako inženýrský projekt s jasně definovanými milníky.Ale projekty ML jsou spíše výzkumem, který začíná hypotézou a snaží se ji prokázat dostupnými daty.
  • Vizualizace - vizualizace obecně Data Science reprezentuje data přímo pomocí jakýchkoli populárních grafů, jako je sloupec, koláč atd. Ale v ML, vizualizace také použitá představuje matematický model tréninkových dat.Například vizualizace matice zmatení klasifikace více tříd pomáhá rychle identifikovat falešné pozitiva a negativa.
  • Jazyky - syntaxové jazyky podobné jazyku SQL a SQL (HiveQL, Spark SQL atd.) Jsou nejpoužívanějším jazykem ve světě datových věd. Používají se také skriptovací jazyky pro zpracování dat jako Perl, awk, sed. Další dobře podporované jazyky široce (Java pro Hadoop, Scala pro Spark atd.) použitá kategorie.

Python a R jsou nejpoužívanějším jazykem ve světě strojového učení. V současné době Python získává na vzestupu, protože noví vědci v oblasti hlubokého učení jsou většinou převedeni na python.SQL také hraje důležitou roli ve fázi zkoumání dat ML

Tabulka pro porovnání dat a vědy o strojovém učení

Základ srovnáníData ScienceStrojové učení
RozsahVytvářejte informace o datech, které se zabývají všemi složitostmi v reálném světě. To zahrnuje úkoly, jako je pochopení požadavku, extrahování dat atd.Přesně klasifikujte nebo predikujte výsledek pro nový datový bod podle vzorců učení z historických dat pomocí matematických modelů.
Vstupní dataVětšina vstupních dat je generována jako lidská spotřební data, která mají být čtena nebo analyzována lidmi, jako jsou tabulková data nebo obrázky.Vstupní data pro ML budou transformována speciálně pro použité algoritmy. Příkladem je škálování funkcí, vkládání slov nebo přidávání polynomických funkcí
Složitost systému● Komponenty pro zpracování nestrukturovaných prvotních dat.

● Spousta pohyblivých součástí, které jsou obvykle naplánovány podle vrstvy orchestrace pro synchronizaci nezávislých úloh

● Hlavní složitost spočívá v algoritmech a matematických koncepcích

● Modely souborů budou mít více než jeden model ML a každý bude mít vážený příspěvek na konečném výstupu

Preferovaná sada dovedností● Odbornost domén

● ETL a profilování dat

● Silný SQL

● NoSQL systémy

● Standardní reportování / vizualizace

● Silné porozumění matematice

● Python / R programování

● Data wrangling with SQL

● Vizualizace pro konkrétní model

Hardwarová specifikace● Horizontálně škálovatelné systémy upřednostňované pro zpracování rozsáhlých dat

● Vysoké překážky RAm a SSD používané k překonání překážky I / O

● GPU jsou preferovány pro intenzivní vektorové operace

● Silnější verze, jako jsou TPU (odkaz), jsou na cestě

Závěr - Data Science vs Machine Learning

V Data Science i Machine Learning se snažíme extrahovat informace a poznatky z dat. Strojové učení se snaží, aby se algoritmy učily samy o sobě. V současné době jsou pokročilé modely ML aplikovány na Data Science, aby automaticky detekovaly a profilovaly data.Google Cloud Dataprep je tím nejlepším příkladem.

Doporučený článek:

Toto byl průvodce Data Science vs Machine Learning, jejich význam, Head to Head Srovnání, Key Rozdíly, Srovnávací tabulka a Závěr. Další informace naleznete také v následujících článcích -

  1. Hadoop developerský rozhovor Otázky
  2. Big Data vs Data Science - Jak se liší?
  3. Data Science a její rostoucí význam
  4. Statistika vs Strojové učení - rozdíly mezi
  5. Jak rozbít rozhovor s vývojářem Hadoop?

Kategorie: