Úvod do metod dobývání dat

Data se v obrovském měřítku denně zvyšují. Všechna shromážděná nebo shromážděná data však nejsou užitečná. Významná data musí být oddělena od hlučných dat (nesmyslná data). Tento proces separace se provádí dolováním dat.

Co je dolování dat?

Dolování dat je proces získávání užitečných informací nebo znalostí z obrovského množství dat (nebo velkých dat). Mezera mezi daty a informacemi byla snížena pomocí různých nástrojů pro dolování dat. Dolování dat lze také označovat jako Zjišťování znalostí z dat nebo KDD .

Zdroje: - www.ques10.com

Dolování dat lze provádět na různých typech databází a informačních úložištích, jako jsou relační databáze, datové sklady, transakční databáze, datové toky a mnoho dalších.

Různé metody dolování dat:

Existuje mnoho metod používaných pro dolování dat, ale zásadním krokem je vybrat z nich vhodnou metodu podle obchodního nebo problémového prohlášení. Tyto metody dolování dat pomáhají předpovídat budoucnost a podle toho přijímat rozhodnutí. Pomáhají také analyzovat tržní trendy a zvyšovat tržby společnosti.

Některé metody dolování dat jsou:

  • Sdružení
  • Klasifikace
  • Shluková analýza
  • Předpověď
  • Sekvenční vzory nebo sledování vzorů
  • Rozhodovací stromy
  • Mimořádná analýza nebo analýza anomálií
  • Nervová síť

Chápeme jednotlivé metody dolování dat jeden po druhém.

1. Sdružení:

Jde o metodu používanou k nalezení korelace mezi dvěma nebo více položkami pomocí identifikace skrytého vzoru v datové sadě, a tedy také nazývané jako relační analýza . Tato metoda se používá při analýze tržního koše k předpovídání chování zákazníka.

Předpokládejme, že marketingový manažer supermarketu chce určit, které výrobky se často kupují společně.

Jako příklad,

Nákupy (x, „pivo“) -> nákupy (x, „čipy“) (podpora = 1%, spolehlivost = 50%)

  • Zde x představuje zákazníka, který kupuje pivo a hranolky společně.
  • Důvěra ukazuje na jistotu, že pokud si zákazník koupí pivo, existuje 50% šance, že si žetony koupí také.
  • Podpora znamená, že 1% všech analyzovaných transakcí ukázalo, že pivo a hranolky byly zakoupeny společně.

Lze zvážit mnoho podobných příkladů, jako je chléb a máslo nebo počítač a software.

Existují dva typy asociačních pravidel:

  • Pravidlo pro jednorozměrné přidružení: Tato pravidla obsahují jediný atribut, který se opakuje.
  • Pravidlo vícerozměrného přidružení: Tato pravidla obsahují více atributů, které se opakují.

https://bit.ly/2N61gzR

2. Klasifikace:

Tato metoda dolování dat se používá k rozlišení položek v sadách dat na třídy nebo skupiny. Pomáhá přesně předpovídat chování položek ve skupině. Je to dvoustupňový proces:

  • Krok učení (fáze školení): V tomto algoritmu klasifikace sestavuje klasifikátor analýzou sady školení.
  • Krok klasifikace: Data testu se používají k odhadu přesnosti nebo přesnosti pravidel klasifikace.

Například bankovní společnost používá k identifikaci žadatelů o úvěr s nízkým, středním nebo vysokým úvěrovým rizikem. Podobně lékařský pracovník analyzuje údaje o rakovině, aby předpověděl, který lék předepíše pacientovi.

Zdroje: - www.tutorialspoint.com

3. Shluková analýza:

Shlukování je téměř podobné klasifikaci, ale v těchto shlucích jsou vytvářeny v závislosti na podobnosti datových položek. Různé klastry mají odlišné nebo nesouvisející objekty. Nazývá se také segmentace dat, protože rozděluje obrovské soubory dat do shluků podle podobností.

Používají se různé metody klastrování:

  • Hierarchické aglomerativní metody
  • Gridové metody
  • Metody dělení
  • Metody založené na modelu
  • Metody založené na hustotě

Podobný příklad žadatelů o úvěr lze také zvážit zde. Na obrázku níže jsou některé rozdíly.

https://bit.ly/2N6aZpP

4. Predikce:

Tato metoda se používá k predikci budoucnosti na základě minulých a současných trendů nebo souboru údajů. Predikce se většinou používá v kombinaci s dalšími metodami dolování dat, jako je klasifikace, přizpůsobení vzoru, analýza trendů a vztah.

Například, pokud by vedoucí prodeje supermarketu chtěl předpovídat výši výnosů, které by každá položka generovala na základě minulých prodejních údajů. Moduluje funkci spojité hodnoty, která předpovídá chybějící hodnoty číselných dat.

Zdroje: - data-mining.philippe-fournier

Regresní analýza je nejlepší volbou pro provedení predikce. Může být použit k nastavení vztahu mezi nezávislými proměnnými a závislými proměnnými.

5. Sekvenční vzory nebo sledování vzorů:

Tato metoda dolování dat se používá k identifikaci vzorců, které se často vyskytují po určitou dobu.

Například vedoucí prodeje oděvní společnosti vidí, že se zdá, že prodeje bund se zvyšují těsně před zimní sezónou, nebo se v období Vánoc nebo Silvestra zvyšuje prodej pekáren.

Podívejme se na příklad s grafem

Zdroje: - data-mining.philippe-fournier-viger

6. Rozhodovací stromy:

Rozhodovací strom je stromová struktura (jak název napovídá), kde

  • Každý interní uzel představuje test na atributu.
  • Větev označuje výsledek testu.
  • Terminální uzly drží označení třídy.
  • Nejvyšší uzel je kořenový uzel, který má jednoduchou otázku, která má dvě nebo více odpovědí. V souladu s tím strom roste a generuje se struktura podobná vývojovému diagramu.

Zdroje: - www.tutorialride.com

V tomto rozhodnutí stromová vláda klasifikuje občany mladší 18 let a starší 18 let. Pomohlo by jim to rozhodnout, zda musí být licence vydána konkrétnímu občanovi nebo ne.

7.Outlierova analýza nebo analýza anomálií:

Tato metoda dolování dat se používá k identifikaci datových položek, které neodpovídají očekávanému vzoru nebo očekávanému chování. Tyto neočekávané datové položky jsou považovány za odlehlé hodnoty nebo šum. Jsou užitečné v mnoha doménách, jako je detekce podvodů s kreditními kartami, detekce narušení, detekce chyb atd. Tomu se také říká mimozemská těžba .

Předpokládejme například, že níže uvedený graf je vykreslen pomocí některých sad dat v naší databázi.

Nakreslí se tedy ta nejvhodnější čára. Body ležící poblíž čáry ukazují očekávané chování, zatímco bod daleko od čáry je DALŠÍ.

Pomohlo by to odhalit anomálie a podle toho přijmout možná opatření.

https://bit.ly/2GrgjDP

8. Neuronová síť:

Tato metoda nebo model dolování dat je založena na biologických neuronových sítích. Je to sbírka neuronů, jako jsou procesní jednotky s váženými spoji mezi nimi. Používají se k modelování vztahu mezi vstupy a výstupy. Používá se pro klasifikaci, regresní analýzu, zpracování dat atd. Tato technika pracuje na třech pilířích -

  • Modelka
  • Algoritmus učení (pod dohledem nebo bez dozoru)
  • Aktivační funkce

Zdroje: - www.saedsayad.com

Doporučené články

Toto byl průvodce metodami dolování dat Zde jsme diskutovali s příkladem Co je to dolování dat a různé typy metody dolování dat. Další informace naleznete také v následujících článcích -

  1. Software Big Data Analytics
  2. Rozhovory s dotazem na strukturu dat
  3. Důležité techniky dolování dat
  4. Architektura dolování dat

Kategorie: