Úvod do těžby dat

Tady v tomto článku se chystáme dozvědět o úvodu dolování dat, protože lidé po staletí těžili ze Země, abychom získali nejrůznější cenné materiály. Někdy se při těžbě objevují věci ze země, které nikdo neočekával, že najde vůbec. Například v roce 1898 byl při vykopávce hrobky v Egyptě v Saqqara nalezen dřevěný artefakt, který přesně připomínal letadlo. Bylo datováno do roku 200 př.nl, asi před 2200 lety! Jaké možné informace bychom však mohli získat z velké sady dat? A i když to začneme těžit, existují šance na získání neočekávaných výsledků ze sady dat? Předtím pojďme do toho, co přesně je dolování dat.

Co je dolování dat?

  • Jde v zásadě o extrakci životně důležitých informací / znalostí z velké sady dat.
  • Přemýšlejte o datech jako o velké zemi / skalnatém povrchu. Nevíme, co je uvnitř, nevíme, jestli je pod skály něco užitečného.
  • V tomto úvodu dolování dat hledáme skryté informace, ale bez jakékoli představy o tom, jaký typ informací chceme najít a co plánujeme použít jednou, najdeme je.
  • Stejně jako v konceptu tradiční těžba, i v těžbě dat existují i ​​různé techniky a nástroje, které se liší v závislosti na typu dat, která těžíme, takže jsme objasnili, že co je to těžba dat v tomto tématu úvodu do těžby dat.

Příklad dolování dat

O úvodu dolování dat jsme se dozvěděli ve výše uvedené části a nyní pokračujeme s příklady těžby dat, které jsou uvedeny níže:

  • Existuje tedy operátor mobilní sítě. Nahlédnou do datového horníka, aby nahráli do záznamů hovorů operátora. Data Miner nejsou dány žádné konkrétní cíle.
  • Je uveden kvantitativní cíl nalezení alespoň 2 nových vzorců za měsíc.
  • Jakmile se datový horník začne kopat do dat, zjistí, že ve středu je ve srovnání s jinými dny méně mezinárodních hovorů.
  • Tyto informace jsou sdíleny s vedením a přicházejí s plánem snížit mezinárodní volání ve středu a zahájit kampaň.
  • Výzvy hovorů, zákazníci jsou spokojeni s nízkou cenou hovoru, více zákazníků se zaregistruje a společnost vydělává více peněz! Situace výhodná pro obě strany!

Při zachování výše uvedeného příkladu se nyní podívejme na různé kroky související s dolováním dat.

Kroky zapojené do těžby dat

Ve výše uvedené části jsme se dozvěděli o úvodu do těžby dat a nyní postupujeme dále s kroky souvisejícími s dolováním dat, které jsou uvedeny níže:

  • Obchodní porozumění

V tomto úvodu dolování dat porozumíme všem aspektům obchodních cílů a potřeb. Současná situace je posuzována na základě zjištění zdrojů, předpokladů a dalších důležitých faktorů. V souladu s tím vytvoření dobrého úvodu do plánu dolování dat k dosažení cílů podnikání i dolování dat.

  • Porozumění datům

Data jsou zpočátku sbírána ze všech dostupných zdrojů. Poté vybereme nejlepší sadu dat, ze které můžeme extrahovat data, která by mohla být výhodnější.

  • Příprava dat

Jakmile je sada dat identifikována, je vybrána, vyčištěna, zkonstruována a naformátována v požadované podobě.

  • Modelování dat

Jedná se o proces remodelace daných dat podle požadavku uživatele. v připraveném souboru údajů by mohl být vytvořen jeden nebo více modelů a nakonec je třeba modely pečlivě posoudit za účasti zúčastněných stran, aby se zajistilo, že vytvořené modely splňují obchodní iniciativy.

  • Hodnocení

Je to jeden z nejpotřebnějších procesů při těžbě dat. Zahrnuje procházení všech aspektů procesu, aby se zkontrolovala případná chyba nebo únik dat v procesu. Také díky novým objeveným vzorcům by mohly být zvýšeny nové obchodní požadavky.

  • Rozvinutí

Znamená to jednoduše prezentovat znalosti takovým způsobem, aby je zúčastněné strany mohly použít, kdykoli je chtějí. V našem výše uvedeném příkladu bylo zjištěno, že mezinárodní hovory byly ve středu méně, takže tyto informace byly předloženy zúčastněným stranám, které tyto informace zase využily ve svůj prospěch a zvýšily své zisky.

Techniky používané při těžbě dat

Ve výše uvedené části jsme se dozvěděli o úvodu do těžby dat, nyní se věnujeme technikám používaným při těžbě dat, které jsou uvedeny níže:

  • Clusterová analýza

Clusterová analýza umožňuje identifikovat danou skupinu uživatelů podle běžných funkcí v databázi. Tyto funkce mohou zahrnovat věk, geografickou polohu, úroveň vzdělání atd.

  • Detekce anomálií

Používá se k určení, kdy se něco výrazně liší od běžného vzoru. Používá se k odstranění jakýchkoli nekonzistencí nebo anomálií databáze u zdroje.

  • Regresní analýza

Tato technika se používá k vytváření předpovědí na základě vztahů v datové sadě. Například lze předpovědět míru zásob konkrétního produktu analýzou minulého kurzu a také s ohledem na různé faktory, které určují míru zásob. Nebo jak je ukázáno níže, pokud máme údaje o výšce a hmotnosti různých osob, pak vzhledem k jakékoli výšce nebo hmotnosti bychom mohli určit další hodnotu.

  • Klasifikace

Jedná se o věci, které na nich mají štítky. Všimněte si, že v detekci shluků, věci v něm neměly označení a pomocí dolování dat jsme museli značit a tvořit do klastrů, ale v klasifikaci existují informace, které lze snadno klasifikovat pomocí algoritmu. Příkladem jsou e-mailové spamové filtry. Filtr nevyžádané pošty je poskytován s relevantními i nevyžádanými zprávami (Training Data). Rozdíly mezi nimi jsou identifikovány, což mu umožňuje správně klasifikovat budoucí e-maily.

  • Asociativní učení

Používá se k analýze toho, které věci mají tendenci se vyskytovat společně v párech nebo větších skupinách. Například lidé, kteří mají tendenci kupovat citrony, kupovat pomeranče, lidé, kteří mají tendenci kupovat chléb, kupovat mléko a tak dále. Takže nákupy všech zákazníků jsou analyzovány a věci, které se vyskytují společně, jsou umístěny blízko sebe, aby se zvýšil prodej. Takže mléko je umístěno blízko chleba, citrony jsou umístěny podél pomerančů a tak dále.

Je dolování dat etické?

Takže plánuji s kamarádem víkendový výlet do Goa, hledám na internetu vhodná místa k návštěvě v Goa. Při příštím otevření internetu najdu reklamy na různé hotely v Goa pro pobyt.

  • Dobrá věc?

Ano, internet mi pomohl zjednodušit cestu. Koneckonců, pokud se rozhodnu navštívit Gou, musel bych někde spát a reklama, která mi ukazuje hotel, je mnohem užitečnější než reklama, která mi ukazuje náhodné oblečení.

  • Špatná věc?

Ano! Proč by společnost na těžbu dat, kterou jsem nikdy předtím neslyšel, věděla, kam jedu na dovolenou. Co když jsem o této cestě nikomu neřekl, ale tady internet najednou ví, že tam jdu. Pravda je, že obchodní model společnosti zabývající se těžbou dat závisí na tom. Shromažďují tato data pomocí cookies a skriptů, poté je prodávají inzerentům, kteří se mi zase snaží prodat něco jiného (v tomto případě hotelového pokoje).

Takže to může být dobré nebo špatné v závislosti na tom, jak se na to díváme. Ve výše uvedeném případě jsme také mohli cookies vypnout nebo jít do anonymního režimu. Ať už to tak bude, jedna věc je jistá. Těžba dat je tu, aby zůstala.

Doporučené články

Toto byl průvodce Úvodem do těžby dat. Zde diskutujeme jeho význam, techniky a kroky spojené s úvodem do těžby dat s příkladem, abychom lépe porozuměli. Další informace naleznete také v následujících článcích -

  1. Rozhovory s dotazováním na dolování dat
  2. Prediktivní analytika vs dolování dat
  3. Úvod do datové vědy
  4. Co je to regresní analýza?

Kategorie: