Úvod do typů těžby dat
Pojem „dolování dat“ znamená, že se musíme podívat do velkého souboru dat a důlních dat, abychom vylíčili podstatu toho, co data chtějí říci. Velmi podobné tomu, jak se provádí těžba uhlí, kde se uhlí hluboko pod zemí těží pomocí různých nástrojů, dolování dat má také přidružené nástroje k tomu, aby se data co nejlépe využila. Jednou velmi častou chybnou interpretací s dolováním dat je to, že se považuje za něco, kde se snažíme extrahovat nová data, ale ne vždy je to pravda. Týká se to také něčeho, kde se snažíme získat smysl z dat, která již máme. Těžba dat sama o sobě je tedy obrovským polem, v němž v následujících několika odstavcích se budeme hlouběji věnovat konkrétním nástrojům v oblasti dolování dat. V tomto článku budeme diskutovat Typy dolování dat.
Co je dolování dat?
Jak už bylo řečeno o těžbě dat dříve, těžba dat je proces, ve kterém se snažíme z dat vytěžit to nejlepší. Nástroje dolování dat fungují jako most mezi daty a informacemi z dat. V několika blogech se dolování dat nazývá také jako Zjišťování znalostí. Zde bychom chtěli podat stručnou představu o procesu implementace dolování dat, aby intuice za těžbou dat byla jasná a pro čtenáře byla snadno pochopitelná. Pod vývojovým diagramem je tok:
Ve výše zmíněném procesu existují nástroje na každé úrovni a my bychom se pokusili udělat hluboký ponor do těch nejdůležitějších.
Typy dolování dat
Dolování dat lze provádět na následujících typech dat:
1. Vyhlazení (příprava dat)
Tato konkrétní metoda techniky dolování dat spadá do žánru přípravy dat. Hlavním záměrem této techniky je odstranění šumu z dat. Zde se algoritmy jako jednoduchý exponenciál, klouzavý průměr, používají k odstranění šumu. Během průzkumné analýzy je tato technika velmi užitečná pro vizualizaci trendů / sentimentů.
2. Agregace (příprava dat)
Jak tento termín napovídá, skupina údajů je agregována za účelem získání více informací. Tato technika se používá k získání přehledu o obchodních cílech a může být provedena ručně nebo pomocí specializovaného softwaru. Tato technika se obvykle používá u velkých dat, protože velká data neposkytují požadované informace jako celek.
3. Generalizace (příprava dat)
Jak již název napovídá, tato technika se opět používá k zobecnění údajů jako celku. To se liší od agregace způsobem, že data během generalizace nejsou seskupena do jednoho celku, aby se získalo více informací, ale celá sada dat je zase zobecněna. To umožní modelu vědy o údajích přizpůsobit se novějším datovým bodům.
4. Normalizace (příprava dat)
V této technice je věnována zvláštní pozornost datovým bodům, aby byly uvedeny do stejné stupnice pro analýzu. Například věk a plat osoby klesají v různých měřících stupnicích, a proto je jejich vykreslení v grafu nám nepomůže dosáhnout žádných užitečných informací o trendech prezentovaných jako kolektivní rys. Pomocí normalizace je můžeme přivést do stejného měřítka, aby bylo možné provést srovnání mezi jablky.
5. Výběr atributu / funkce (Příprava dat)
V této technice používáme metody k provedení výběru funkcí tak, aby model používaný k trénování datových souborů mohl znamenat hodnotu pro předpovídání dat, která neviděla. Je to velmi podobné výběru správného oblečení z šatníku plného oblečení, které se hodí pro akci. Nerelevantní funkce mohou negativně ovlivnit výkon modelu, natož zlepšení výkonu.
6. Klasifikace (modelování dat)
V této technice dolování dat budeme řešit skupiny známé jako „třídy“. V této technice využíváme vybrané funkce (jak je diskutováno ve výše uvedeném bodě) společně do skupin / kategorií. Například v obchodě, pokud musíme posoudit, zda si člověk koupí produkt nebo ne, existuje „n“ množství funkcí, které můžeme společně použít k získání výsledku True / False.
7. Sledování vzorků
Toto je jedna ze základních technik používaných při těžbě dat k získání informací o trendech / vzorcích, které by mohly být vystaveny datovými body. Můžeme například určit trend většího prodeje během víkendu nebo dovolené, nikoli ve všední dny nebo pracovní dny.
8. Mimořádná analýza nebo detekce anomálií
Zde, jak již název napovídá, se tato technika používá k nalezení nebo analýze odlehlých hodnot nebo anomálií. Odlehlé hodnoty nebo anomálie nejsou negativní datové body, jsou to jen něco, co vyniká obecným trendem celého souboru dat. Při identifikaci odlehlých hodnot je můžeme buď úplně odstranit z datového souboru, ke kterému dochází po dokončení přípravy dat. Nebo je tato technika široce používána v modelových datových sadách pro předpovídání odlehlých hodnot.
9. Shlukování
Tato technika je do značné míry podobná klasifikaci, ale jediným rozdílem je, že neznáme skupinu, ve které datové body po seskupení funkcí spadnou po seskupení. Tato metoda se obvykle používá při seskupování lidí za účelem cílení na doporučení podobných produktů.
10. Regrese
Tato technika se používá k predikci pravděpodobnosti funkce s přítomností dalších funkcí. Můžeme například určit pravděpodobnost ceny položky s ohledem na poptávku, konkurenci a několik dalších funkcí.
11. Neuronová síť
Tato technika je založena na principu fungování biologických neuronů. Podobně jako neurony v lidském těle, neurony v neuronové síti při těžbě dat fungují také jako jednotka zpracování a spojují další neurony, aby předaly informace podél řetězce.
12. Asociace
V této metodě dolování dat se určuje vztah mezi různými funkcemi a následně se používá k nalezení buď skrytých vzorců, nebo související analýzy, podle obchodních požadavků. Například pomocí přidružení můžeme najít funkce vzájemně korelované, a tak zdůraznit odstranění kohokoliv, aby se odstranily některé redundantní funkce a zlepšil se výkon / čas zpracování.
Závěr
Závěrem lze říci, že při provádění dolování dat je třeba mít na paměti různé požadavky. Jeden musí být velmi opatrný, co se očekává, že výstup bude, aby odpovídající techniky mohly být použity k dosažení cíle. Přestože je dolování dat vyvíjejícím se prostorem, pokusili jsme se vytvořit vyčerpávající seznam pro všechny typy nástrojů v Dolování dat výše pro čtenáře.
Doporučené články
Toto je průvodce Typem dolování dat. Zde diskutujeme Úvod a Top 12 typů dolování dat. Můžete si také prohlédnout naše další doporučené články -
- Výhody dolování dat
- Architektura dolování dat
- Metody dolování dat
- Nástroj pro dolování dat
- Typy modelů při těžbě dat