Úvod do analýzy dat

V tomto článku uvidíme přehled o typech analýzy dat. V období 21. století je možná nejpozoruhodnější změnou, jak se data stala součástí našeho rozhodovacího systému v každé oblasti našeho života. Není pochyb o tom, že „Data jsou nová ropa“ každého odvětví. Nyní s nárůstem téměř nekonečné šířky pásma se objevuje nová řada výzev, jak efektivně využívat tuto obrovskou škálu dat a odvodit z nich důležité poznatky. Spolu s velkým rozsahem dat se hluk postupně zvyšuje, analýza dat je sbírka různých metodik a způsobů myšlení, aby bylo možné z dostupných dat vytěžit maximum a surová data převést na nějakou obchodní nebo společenskou hodnotu.

Typy analýzy dat

Na základě použitých metodik lze analýzu dat rozdělit do následujících čtyř částí:

  • Popisná analýza
  • Průzkumná analýza dat
  • Prediktivní analýza
  • Inferenciální analýza

1. Popisná analýza

Deskriptivní analýza je numerický způsob, jak získat informace o datech. V deskriptivní analýze dostaneme souhrnnou hodnotu numerických proměnných. Předpokládejme, že analyzujete prodejní údaje výrobce automobilů. V literatuře popisné analýzy budete hledat otázky, jaké jsou střední hodnoty, způsob prodejní ceny typu automobilu, jaký byl příjem z prodeje konkrétního typu automobilu atd. Můžeme získat centrální tendenci a rozptyl numerických proměnných dat pomocí tohoto typu analýzy. Ve většině případů praktického použití datové vědy vám popisná analýza pomůže získat informace o vysoké úrovni dat a zvyknout si na datový soubor. Důležité terminologie deskriptivní analýzy jsou:

  • Průměr (průměr všech čísel v seznamu čísel)
  • Režim (nejčastější číslo v seznamu čísel)
  • Medián (střední hodnota seznamu čísel)
  • Standardní odchylka (velikost odchylky sady hodnot od střední hodnoty)
  • Variace (čtverec směrodatné odchylky)
  • Mezikvartilový rozsah (hodnoty mezi 25 a 75 percentilem seznamu čísel)

V pythonu poskytuje knihovna pandas metodu nazvanou 'description', která poskytuje popisné informace o datovém rámci. Používáme také jiné knihovny, jako je statistický model, nebo můžeme vyvíjet náš kód podle případu použití.

2. Průzkumná analýza dat

Na rozdíl od popisné analýzy dat, kde údaje analyzujeme numericky, je průzkumná analýza dat vizuální cestou k analýze dat. Jakmile budeme mít základní porozumění datům po ruce pomocí deskriptivní analýzy, přejdeme k průzkumné analýze dat. Můžeme také rozdělit analýzu průzkumných dat do dvou částí:

  • Uni variate analýza (zkoumání charakteristiky jedné proměnné)
  • Multivariační analýza (srovnávací analýza více proměnných, pokud porovnáme korelaci dvou proměnných, nazývá se bivariační analýza)

Při vizuální analýze dat využíváme k analýze dat různé druhy grafů a grafů. K analýze jedné proměnné (univariační analýza) můžeme použít sloupcový graf, histogramy, boxový graf s vousem, houslový graf atd. Pro multivariační analýzu používáme rozptylový graf, kontury, multi-dimenzionální grafy atd.

Ale proč potřebujeme analýzu průzkumných dat?

  • Průzkumná analýza dat poskytuje vizuální způsob, jak data opsat, což pomáhá jasněji identifikovat vlastnosti dat.
  • Pomáhá nám určit, které funkce jsou důležitější. To je zvláště užitečné, když pracujeme s vysokorozměrnými daty. (tj. metody jako PCA a t-SNE pomáhají při snižování rozměrů).
  • Je to efektivní způsob, jak vysvětlit vzniklý výsledek vedoucím pracovníkům a držitelům netechnických zásobníků.

V pythonu existuje mnoho knihoven, které provádějí průzkumnou analýzu dat. Matplotlib, Seaborn, Plotly, Bokeh atd. Jsou mezi nimi nejoblíbenější.

3. Prediktivní analýza

Co se stane, pokud budeme předem vědět chyby, které uděláme v budoucnosti? Pokusíme se těmto vyhnout? Prediktivní analýza není ničím jiným než vědeckým způsobem, jak předpovědět budoucí výsledky analýzou historických událostí. Srdce datové vědy je založeno na prediktivní analýze. Prediktivní analýza nám pomáhá odpovědět na následující otázky: „Můžeme předvídat, zda kupující koupí konkrétní produkt nebo ne?“ Nebo „Můžeme odhadnout celkové náklady, které musí pojistitel zaplatit za nároky? "Nebo" Můžeme odhadnout množství srážek v nadcházejícím monzunu? "

Prediktivní analýza nám pomáhá poskytnout přibližný nebo nejpravděpodobnější výsledek důležitých otázek, které pak vedou k masivním změnám v podnikání a sociálně-ekonomickým změnám. Modely strojového učení jsou vyvíjeny na základě historických dat, aby předpovídaly výsledek podobných neviditelných budoucích událostí.

4. Inferenciální analýza

Inferenciální analýza je literatura datové vědy, zatímco předpovídáme referenční výsledek pro více sektorů. Například odvození indexu spotřebitelských cen nebo příjmu na hlavu. Není možné oslovit každého spotřebitele jeden po druhém a spočítat. Místo toho vědecky odebíráme vzorky z populace a pomocí statistické analýzy odvodíme index.

Závěr

V tomto článku jsme diskutovali různé metodiky analýzy dat. Potřebujeme použít všechny tyto metody nebo je můžeme použít některou z nich? Nyní je to založeno na případu použití a doméně aplikace. Ve většině případů však začneme s popisnou a průzkumnou analýzou dat a vytvoříme prediktivní modely pro předpovídání budoucích výsledků.

Doporučené články

Toto je průvodce typy analýzy dat. Zde diskutujeme stručný přehled analýzy dat a různých metodik založených na případu použití a doméně aplikace. Další informace naleznete také v našich doporučených článcích -

  1. 8 nejlepších nástrojů pro analýzu dat zdarma
  2. Úvod do typů technik analýzy dat
  3. Analýza dat vs. analýza dat - hlavní rozdíly
  4. Naučte se koncept integrace dat

Kategorie: