Co je to Data Analytics - Různé typy analýzy dat

Obsah:

Anonim

Co je to Analýza dat?

Data Analytics je proces objevování klíčových poznatků a hodnotných závěrů z velkého množství dat shromážděných nebo shromážděných z různých zdrojů na podporu rozhodování. Vyšší výpočetní výkon, vysoká rychlost zpracování. Příchod interaktivních rozhraní koncových uživatelů a prokázaná účinnost distribuovaného výpočetního paradigmatu pro zvládnutí velkých kusů dat umožňujících analytickou analýzu dat ve všech doménách, zejména v oblasti maloobchodu, bankovnictví, zdravotnictví, logistiky, obrany, veřejné správy atd.

Typy analýzy dat

Proces analýzy dat je subjektivně rozdělen do tří typů na základě účelu analýzy dat jako

  • Popisná analýza
  • Prediktivní analýza
  • Předpisová analýza

Funkce výše uvedených typů Analytics jsou popsány níže:

1. Popisná analýza

Deskriptivní analytika se zaměřuje na shrnutí minulých dat pro odvození závěrů. Mezi nejčastěji používaná opatření pro kvantitativní charakterizaci distribuce historických dat patří

  • Měření centrální tendence - střední, střední, kvartily, režim.
  • Měření proměnlivosti nebo rozptylu - rozsah, mezikvartilový rozsah, procenta.

V nedávné době se obtíže a omezení související se shromažďováním, ukládáním a porozuměním rozsáhlých hromádek dat překonávají procesem statistického odvozování. Zobecněné závěry o statistikách souboru údajů o obyvatelstvu se odvozují pomocí metod vzorkování spolu s aplikací teorie centrálního omezení.

Přední zpravodajské stanice shromažďují informace o volbách náhodně vybraných voličů na výstupu z hlasovací stanice v den voleb, aby bylo možné odvodit statistické závěry o preferencích celé populace.

Opakované vzorkování souboru údajů o populaci má za následek kousky vzorků s dostatečně velkou velikostí vzorku. Skupinové vzorkování je obecně preferováno k vytvoření dobře stratifikovaných, nezaujatých zástupců souboru údajů o populaci. Statistické měřítko zájmu se počítá na vzorkovaných datových blocích, aby se získalo rozdělení statistických hodnot vzorku nazývané distribuce vzorkování. Charakteristiky distribuce vzorků se vztahují k charakteristikám souboru údajů o populaci pomocí centrální teorie omezení.

2. Prediktivní analýza

Prediktivní analytika využívá vzorce v historických nebo minulých datech k odhadu budoucích výsledků, k identifikaci trendů, odhalení potenciálních rizik a příležitostí nebo předvídání chování procesů. Protože případy predikce jsou věrohodné, tyto přístupy používají pravděpodobnostní modely k měření pravděpodobnosti všech možných výsledků.

ChatBot na Portálu zákaznických služeb finanční společnosti se aktivně učí záměru nebo potřebě zákazníků vycházet z jeho minulých aktivit ve své webové doméně. V předpovězeném kontextu chatBot interaktivně komunikuje se zákazníkem, aby rychle poskytoval vhodné služby a dosáhl lepší spokojenosti zákazníků.

Kromě scénářů extrapolace, které předpovídají, co se v budoucnu stane na základě dostupných minulých dat, existuje jen málo aplikací, které odhady chybí při zadávání údajů pomocí dostupných vzorků dat. Tato aproximace zmeškaných hodnot v rozsahu daných vzorků dat je technicky označována jako interpolace.

Výkonná aplikace editoru obrázků podporuje rekonstrukci ztracených částí textury kvůli super-uvalenému textu interpolací funkce funkce v ztraceném bloku. Funkci funkce lze interpretovat jako matematický zápis vzorů v texturu zkresleného obrazu.

Mezi významné faktory, které ovlivňují výběr prediktivních modelů / strategií, patří:

  • Přesnost predikce: To vyjadřuje míru blízkosti mezi predikovanou hodnotou a skutečnou hodnotou. Nižší rozptyl rozdílu mezi předpokládanou hodnotou a skutečnou hodnotou znamená vyšší přesnost prediktivního modelu.
  • Rychlost předpovědí: V aplikacích pro sledování v reálném čase je vysoká priorita
  • Rychlost učení modelu: Závisí to na složitosti modelu a výpočtech zahrnutých do výpočtu parametrů modelu.

3. Předpisová analýza

Prescriptive Analytics využívá znalosti objevené jako součást deskriptivní i prediktivní analýzy k doporučení kontextového postupu. Pro porozumění rozdělení odhadovaných předpovědí jsou implementovány pokročilé statistické techniky a výpočetně náročné optimalizační metody.

Přesně řečeno, dopad a přínos každého výsledku, který se odhaduje během prediktivní analýzy, je vyhodnocen za účelem heuristického a časově citlivého rozhodnutí pro daný soubor podmínek.

Poradenská společnost na akciovém trhu provádí SWOT (sílu, slabost, příležitosti a hrozbu) analýzu předpovídaných cen akcií v portfoliu investorů a svým klientům doporučuje nejlepší možnosti nákupu a prodeje.

Tok procesů v analýze dat

Proces analýzy dat má různé fáze zpracování dat, jak je vysvětleno níže:

1. Extrakce dat

Příjem dat z více zdrojů dat různých typů, včetně webových stránek, databází, starších aplikací, má za následek vstupní datové sady různých formátů. Datové formáty vložené do toku datové analýzy lze obecně klasifikovat jako

  • Strukturovaná data mají jasnou definici typů dat spolu s přiřazenou délkou pole nebo oddělovače pole. Tento typ dat lze snadno zadávat jako obsah uložený v relační databázi (RDBMS).
  • Polostrukturovaná data postrádají přesnou definici rozvržení, ale datové prvky lze identifikovat, oddělit a seskupit na základě standardního schématu nebo jiných pravidel metadat. Soubor XML využívá značkování k uchování dat, zatímco soubor Javascript Object Notation file (JSON) uchovává data v párech název-hodnota. NoSQL (nejen SQL) databáze jako MongoDB, ale gaučová základna se také používají k ukládání polostrukturovaných dat.
  • Nestrukturovaná data zahrnují konverzace na sociálních médiích, obrázky, zvukové klipy atd. Tradiční metody analýzy dat těmto datům nerozumí. Nestrukturovaná data jsou uložena v datových jezerech.

Implementace analýzy dat pro strukturovaná a polostrukturovaná data je začleněna do různých nástrojů ETL, jako jsou Ab Initio, Informatica, Datastage a alternativy open source, jako je Talend.

2. Čištění a transformace dat

Čištění analyzovaných dat se provádí za účelem zajištění konzistence dat a dostupnosti příslušných dat pro pozdější fáze procesu. Hlavní operace čištění v analytice dat jsou:

  • Detekce a eliminace odlehlých hodnot v objemech dat
  • Odstranění duplikátů v datové sadě
  • Zpracování chybějících záznamů v datových záznamech s porozuměním funkčnosti nebo případům použití
  • Ověření přípustných hodnot polí v datových záznamech, například „31. února“, nemůže být platnou hodnotou v žádném z datových polí.

Očištěná data jsou transformována do vhodného formátu pro analýzu dat. Transformace dat zahrnují

  • Filtr nežádoucích datových záznamů.
  • Spojení dat získaných z různých zdrojů.
  • Agregace nebo seskupování údajů
  • Typcasting dat

3. Odvození KPI / Insight

Dolování dat, metody hlubokého učení se používají k vyhodnocení klíčových ukazatelů výkonu (KPI) nebo k získání cenných poznatků z vyčištěných a transformovaných dat. Na základě analytických cílů je analýza dat prováděna pomocí různých technik rozpoznávání vzorů, jako je shlukování k-prostředků, klasifikace SVM, Bayesovské klasifikátory atd. A modely strojového učení, jako jsou Markovovy modely, Gaussovy modely směsí (GMM) atd.

Pravděpodobnostní modely ve fázi výcviku se učí optimální parametry modelu a ve fázi validace je model testován pomocí k-násobného křížového ověření, aby se předešlo chybám při překládání a nedostatečné montáži.

Nejčastěji používaným programovacím jazykem pro analýzu dat jsou R a Python. Obě mají bohatou sadu knihoven (SciPy, NumPy, Pandas), které jsou otevřeny pro provádění komplexní analýzy dat.

4. Vizualizace dat

Vizualizace dat je proces jasné a efektivní prezentace nekrytých vzorů, odvozených závěrů z dat pomocí grafů, grafů, dashboardů a grafiky.

  • Nástroje pro vykazování dat, jako je QlikView, Tableau atd., Zobrazují KPI a další odvozené metriky na různých úrovních granularity.
  • Nástroje pro vytváření přehledů umožňují koncovým uživatelům vytvářet přizpůsobené přehledy s možnostmi otáčení a rozbalování pomocí uživatelsky přívětivých rozhraní drag and drop
  • Interaktivní knihovny vizualizace dat jako D3.js (Data-řízené dokumenty), HTML5-Anycharts atd. Se používají ke zvýšení schopnosti prozkoumávat analyzovaná data

Doporučené články

Toto byl průvodce Co je to Data Analytics. Zde jsme diskutovali o různých typech analytických dat s procesním tokem. Další informace naleznete také v dalších navrhovaných článcích -

  1. Otázky a odpovědi na rozhovor s analytiky dat
  2. Co je to vizualizace dat?
  3. Co je Big Data Analytics?
  4. Co je Minitab?