Co je to Analýza dat?
Data Analytics je proces objevování klíčových poznatků a hodnotných závěrů z velkého množství dat shromážděných nebo shromážděných z různých zdrojů na podporu rozhodování. Vyšší výpočetní výkon, vysoká rychlost zpracování. Příchod interaktivních rozhraní koncových uživatelů a prokázaná účinnost distribuovaného výpočetního paradigmatu pro zvládnutí velkých kusů dat umožňujících analytickou analýzu dat ve všech doménách, zejména v oblasti maloobchodu, bankovnictví, zdravotnictví, logistiky, obrany, veřejné správy atd.
Typy analýzy dat
Proces analýzy dat je subjektivně rozdělen do tří typů na základě účelu analýzy dat jako
- Popisná analýza
- Prediktivní analýza
- Předpisová analýza
Funkce výše uvedených typů Analytics jsou popsány níže:
1. Popisná analýza
Deskriptivní analytika se zaměřuje na shrnutí minulých dat pro odvození závěrů. Mezi nejčastěji používaná opatření pro kvantitativní charakterizaci distribuce historických dat patří
- Měření centrální tendence - střední, střední, kvartily, režim.
- Měření proměnlivosti nebo rozptylu - rozsah, mezikvartilový rozsah, procenta.
V nedávné době se obtíže a omezení související se shromažďováním, ukládáním a porozuměním rozsáhlých hromádek dat překonávají procesem statistického odvozování. Zobecněné závěry o statistikách souboru údajů o obyvatelstvu se odvozují pomocí metod vzorkování spolu s aplikací teorie centrálního omezení.
Přední zpravodajské stanice shromažďují informace o volbách náhodně vybraných voličů na výstupu z hlasovací stanice v den voleb, aby bylo možné odvodit statistické závěry o preferencích celé populace.
Opakované vzorkování souboru údajů o populaci má za následek kousky vzorků s dostatečně velkou velikostí vzorku. Skupinové vzorkování je obecně preferováno k vytvoření dobře stratifikovaných, nezaujatých zástupců souboru údajů o populaci. Statistické měřítko zájmu se počítá na vzorkovaných datových blocích, aby se získalo rozdělení statistických hodnot vzorku nazývané distribuce vzorkování. Charakteristiky distribuce vzorků se vztahují k charakteristikám souboru údajů o populaci pomocí centrální teorie omezení.
2. Prediktivní analýza
Prediktivní analytika využívá vzorce v historických nebo minulých datech k odhadu budoucích výsledků, k identifikaci trendů, odhalení potenciálních rizik a příležitostí nebo předvídání chování procesů. Protože případy predikce jsou věrohodné, tyto přístupy používají pravděpodobnostní modely k měření pravděpodobnosti všech možných výsledků.
ChatBot na Portálu zákaznických služeb finanční společnosti se aktivně učí záměru nebo potřebě zákazníků vycházet z jeho minulých aktivit ve své webové doméně. V předpovězeném kontextu chatBot interaktivně komunikuje se zákazníkem, aby rychle poskytoval vhodné služby a dosáhl lepší spokojenosti zákazníků.
Kromě scénářů extrapolace, které předpovídají, co se v budoucnu stane na základě dostupných minulých dat, existuje jen málo aplikací, které odhady chybí při zadávání údajů pomocí dostupných vzorků dat. Tato aproximace zmeškaných hodnot v rozsahu daných vzorků dat je technicky označována jako interpolace.
Výkonná aplikace editoru obrázků podporuje rekonstrukci ztracených částí textury kvůli super-uvalenému textu interpolací funkce funkce v ztraceném bloku. Funkci funkce lze interpretovat jako matematický zápis vzorů v texturu zkresleného obrazu.
Mezi významné faktory, které ovlivňují výběr prediktivních modelů / strategií, patří:
- Přesnost predikce: To vyjadřuje míru blízkosti mezi predikovanou hodnotou a skutečnou hodnotou. Nižší rozptyl rozdílu mezi předpokládanou hodnotou a skutečnou hodnotou znamená vyšší přesnost prediktivního modelu.
- Rychlost předpovědí: V aplikacích pro sledování v reálném čase je vysoká priorita
- Rychlost učení modelu: Závisí to na složitosti modelu a výpočtech zahrnutých do výpočtu parametrů modelu.
3. Předpisová analýza
Prescriptive Analytics využívá znalosti objevené jako součást deskriptivní i prediktivní analýzy k doporučení kontextového postupu. Pro porozumění rozdělení odhadovaných předpovědí jsou implementovány pokročilé statistické techniky a výpočetně náročné optimalizační metody.
Přesně řečeno, dopad a přínos každého výsledku, který se odhaduje během prediktivní analýzy, je vyhodnocen za účelem heuristického a časově citlivého rozhodnutí pro daný soubor podmínek.
Poradenská společnost na akciovém trhu provádí SWOT (sílu, slabost, příležitosti a hrozbu) analýzu předpovídaných cen akcií v portfoliu investorů a svým klientům doporučuje nejlepší možnosti nákupu a prodeje.
Tok procesů v analýze dat
Proces analýzy dat má různé fáze zpracování dat, jak je vysvětleno níže:
1. Extrakce dat
Příjem dat z více zdrojů dat různých typů, včetně webových stránek, databází, starších aplikací, má za následek vstupní datové sady různých formátů. Datové formáty vložené do toku datové analýzy lze obecně klasifikovat jako
- Strukturovaná data mají jasnou definici typů dat spolu s přiřazenou délkou pole nebo oddělovače pole. Tento typ dat lze snadno zadávat jako obsah uložený v relační databázi (RDBMS).
- Polostrukturovaná data postrádají přesnou definici rozvržení, ale datové prvky lze identifikovat, oddělit a seskupit na základě standardního schématu nebo jiných pravidel metadat. Soubor XML využívá značkování k uchování dat, zatímco soubor Javascript Object Notation file (JSON) uchovává data v párech název-hodnota. NoSQL (nejen SQL) databáze jako MongoDB, ale gaučová základna se také používají k ukládání polostrukturovaných dat.
- Nestrukturovaná data zahrnují konverzace na sociálních médiích, obrázky, zvukové klipy atd. Tradiční metody analýzy dat těmto datům nerozumí. Nestrukturovaná data jsou uložena v datových jezerech.
Implementace analýzy dat pro strukturovaná a polostrukturovaná data je začleněna do různých nástrojů ETL, jako jsou Ab Initio, Informatica, Datastage a alternativy open source, jako je Talend.
2. Čištění a transformace dat
Čištění analyzovaných dat se provádí za účelem zajištění konzistence dat a dostupnosti příslušných dat pro pozdější fáze procesu. Hlavní operace čištění v analytice dat jsou:
- Detekce a eliminace odlehlých hodnot v objemech dat
- Odstranění duplikátů v datové sadě
- Zpracování chybějících záznamů v datových záznamech s porozuměním funkčnosti nebo případům použití
- Ověření přípustných hodnot polí v datových záznamech, například „31. února“, nemůže být platnou hodnotou v žádném z datových polí.
Očištěná data jsou transformována do vhodného formátu pro analýzu dat. Transformace dat zahrnují
- Filtr nežádoucích datových záznamů.
- Spojení dat získaných z různých zdrojů.
- Agregace nebo seskupování údajů
- Typcasting dat
3. Odvození KPI / Insight
Dolování dat, metody hlubokého učení se používají k vyhodnocení klíčových ukazatelů výkonu (KPI) nebo k získání cenných poznatků z vyčištěných a transformovaných dat. Na základě analytických cílů je analýza dat prováděna pomocí různých technik rozpoznávání vzorů, jako je shlukování k-prostředků, klasifikace SVM, Bayesovské klasifikátory atd. A modely strojového učení, jako jsou Markovovy modely, Gaussovy modely směsí (GMM) atd.
Pravděpodobnostní modely ve fázi výcviku se učí optimální parametry modelu a ve fázi validace je model testován pomocí k-násobného křížového ověření, aby se předešlo chybám při překládání a nedostatečné montáži.
Nejčastěji používaným programovacím jazykem pro analýzu dat jsou R a Python. Obě mají bohatou sadu knihoven (SciPy, NumPy, Pandas), které jsou otevřeny pro provádění komplexní analýzy dat.
4. Vizualizace dat
Vizualizace dat je proces jasné a efektivní prezentace nekrytých vzorů, odvozených závěrů z dat pomocí grafů, grafů, dashboardů a grafiky.
- Nástroje pro vykazování dat, jako je QlikView, Tableau atd., Zobrazují KPI a další odvozené metriky na různých úrovních granularity.
- Nástroje pro vytváření přehledů umožňují koncovým uživatelům vytvářet přizpůsobené přehledy s možnostmi otáčení a rozbalování pomocí uživatelsky přívětivých rozhraní drag and drop
- Interaktivní knihovny vizualizace dat jako D3.js (Data-řízené dokumenty), HTML5-Anycharts atd. Se používají ke zvýšení schopnosti prozkoumávat analyzovaná data
Doporučené články
Toto byl průvodce Co je to Data Analytics. Zde jsme diskutovali o různých typech analytických dat s procesním tokem. Další informace naleznete také v dalších navrhovaných článcích -
- Otázky a odpovědi na rozhovor s analytiky dat
- Co je to vizualizace dat?
- Co je Big Data Analytics?
- Co je Minitab?