Rozdíly mezi těžbou textu a analýzou textu

Strukturovaná data jsou už od počátku 20. let 20. století, ale díky čemuž je textová těžba a textová analytika tak zvláštní, je to, že využívají informace z nestrukturovaných dat (zpracování přirozeného jazyka). Jakmile budeme schopni převést tento nestrukturovaný text na polostrukturovaná nebo strukturovaná data, bude možné použít všechny algoritmy dolování dat ex. Statistické a strojové algoritmy učení.

Dokonce i Donald Trump byl schopen využít data a převést je na informace, které mu pomohly vyhrát americké prezidentské volby, ale v podstatě to neudělal jeho podřízení. Tam je velmi dobrý článek tam http://fivethirtyeight.com/features/the-real-story-of-2016/ můžete projít.

Mnoho podniků začalo používat těžbu textu k využívání hodnotných vstupů z dostupného textu. Například společnost založená na produktu může pomocí twitterových dat / dat z Facebooku vědět, jak dobře nebo špatně jejich produkt dělá na světě pomocí Sentimental Analýza. V počátečních dnech zpracování trvalo hodně času, dní, ve skutečnosti, zpracování nebo implementaci algoritmů strojového učení, ale se zavedením nástrojů, jako jsou Hadoop, Azure, KNIME a další software pro zpracování velkých dat těžba textu získala na trhu obrovskou popularitu. Jedním z nejlepších příkladů textové analýzy využívající asociační těžbu je Amazonův doporučovací modul, kde automaticky dává svým zákazníkům doporučení, co ostatní lidé koupili při nákupu jakéhokoli konkrétního produktu.

Jednou z největších výzev použití nástrojů pro dolování textu na něco, co není v digitálním formátu / na počítačovém disku, je proces jeho výroby. Staré archivy a mnoho důležitých dokumentů, které jsou k dispozici pouze na papírech, se někdy čtou prostřednictvím OCR (Optical Character Recognition), které mají mnoho chyb a někdy se data zadávají ručně, což je náchylné k lidským chybám. Důvod, proč to chceme, je, že můžeme odvodit další poznatky, které nejsou vidět z tradičního čtení.

Některé kroky těžby textu jsou uvedeny níže

  • Získávání informací
  • Příprava a čištění dat
  • Segmentace
  • Tokenizace
  • Čísla stop slov a interpunkční znaménka
  • Stemming
  • Převést na malá písmena
  • POS značkování
  • Vytvořte textový korpus
  • Matice termínového dokumentu

A níže jsou kroky v textové analýze, které se používají po přípravě matice termínovaných dokumentů

  • Modelování (Může se jednat o inferenciální modely, prediktivní modely nebo preskriptivní modely)
  • Školení a hodnocení modelů
  • Aplikace těchto modelů
  • Vizualizace modelů

Jediná věc, kterou si musíte vždy pamatovat, je, že dolování textu vždy předchází textové analýze.

Srovnání mezi hlavami mezi těžbou textu a analýzou textu (infografika)

Níže je 5 srovnání mezi prediktivní těžbou textu a analýzou textu

Klíčové rozdíly mezi těžbou textu a analýzou textu

Pojďme rozlišovat těžbu textu a analýzu textu na základě kroků, které se podílejí na několika aplikacích, ve kterých jsou aplikovány tyto metody těžby textu i analýzy textu:

• Klasifikace dokumentů
V tomto kroku jsou kroky, které jsou zahrnuty do těžby textu, tokenizace, stopování a lemmatizace, odstranění zastávek a interpunkce a konečně výpočet pojmu frekvenční matice nebo frekvenční matice dokumentu.

Tokenizace - Proces rozdělování celých dat (korpus) na menší kousky nebo menší slova, obvykle jednotlivá slova, se nazývá tokenizace (model N-Gram nebo model pytlů slov)

Stemming a Lemmatizace - Například slova velká, velká a největší znamenají totéž a vytvoří duplicitní data, aby byla data nadbytečná, provádíme lemmatizaci, propojení slov s kořenovým slovem.
Odstranění stop slov - Stop slova nejsou k ničemu v analytice, která bude obsahovat slova jako je, a atd.

Frekvence termínů - Jedná se o matici, která má záhlaví řádků jako názvy dokumentů a sloupce jako termíny (slova) a data jsou frekvence slov vyskytujících se v těchto konkrétních dokumentech. Níže je ukázkový snímek obrazovky.

Na obrázku výše máme atributy v řádcích (slovech) a číslo dokumentu jako sloupce a frekvenci slova jako data.

Nyní přicházíme k textové analýze máme následující kroky, které je třeba zvážit

Klastrování - Pomocí K-znamená klastrování / Neuronové sítě / KARTA (Klasifikační a regresní stromy) nebo jiného algoritmu klastrování můžeme nyní klastrovat dokumenty na základě funkcí, které byly vygenerovány (funkce jsou zde slova).

Vyhodnocení a vizualizace - Dodáváme klastr do dvou dimenzí a podíváme se, jak se tyto klastry liší od sebe navzájem, a pokud model drží dobré údaje o testech, můžeme jej nasadit do výroby a bude to dobrý klasifikátor dokumentů, který bude klasifikovat všechny nové dokumenty, které jsou uvedeny jako vstup, a pojmenovalo by to pouze klastr, do kterého bude spadat.

• Analýza sentimentu

Jeden z nejmocnějších nástrojů na trhu, který pomáhá při zpracování twitterových dat / dat z Facebooku nebo jiných dat, která lze použít k odvození sentimentu z toho, zda je sentiment dobrý, špatný nebo neutrální pro konkrétní proces / produkt nebo osoba je analýza sentimentu.
Zdroj dat lze snadno získat pomocí twitter API / Facebook API pro získání tweety / komentáře / hodnocení apod. Na tweetu nebo na poštu společnosti. Hlavním problémem je, že tato data je obtížné strukturovat. Data by také obsahovala různé reklamy a vědec údajů, který pracuje pro společnost, musí zajistit, aby byl výběr dat proveden správným způsobem, aby pouze vybrané tweety / příspěvky procházely fázemi předběžného zpracování.
Mezi další nástroje patří Web-Scraping, jedná se o část těžby textu, ve které pomocí prolézacích modulů vyřadíte data z webů.
Proces dolování textu zůstává stejný jako tokenizace, stopování a lemmatizace, odstraňování zastávek a interpunkčních znamének a konečně výpočet, pojem kmitočtová matice nebo matice kmitočtů dokumentů, ale jediný rozdíl přichází při aplikaci analýzy sentimentu.
Obvykle dáváme skóre každému příspěvku / tweetu. Obvykle, když si koupíte produkt a recenzi, pokud máte také možnost dát hvězdám recenzi a přidat komentář. Google, Amazon a další webové stránky používají hvězdičky k ohodnocení komentáře, nejen to, že také berou tweety / příspěvky a dávají je lidem, aby to ohodnotili jako dobré / špatné / neutrální, a při česání těchto dvou skóre vytvoří nové skóre na konkrétní konkrétní tweet / příspěvek.
Vizualizaci analýzy sentimentu lze provést pomocí slovního cloudu, sloupcových diagramů matice frekvenčních termínů.

• Asociace analýzy těžby

Jednou z aplikací, na kterých někteří kluci pracovali, byl „Pravděpodobný model nežádoucích účinků“, kdy je možné zkontrolovat, které nežádoucí účinky mohou způsobit jiné nežádoucí účinky, pokud vezme nějaký konkrétní lék.
Dolování textu zahrnovalo níže uvedený pracovní postup

Z výše uvedeného obrázku vidíme, že až do těžby dat patří všechny kroky do těžby textu, který identifikuje zdroj dat, extrahuje je a poté je připravuje k analýze.

Po použití těžby asociací máme níže uvedený model
Jak vidíme, že některé šipky ukazují na oranžový kruh a pak jedna šipka ukazuje na jakoukoli konkrétní ADE (nežádoucí drogová událost). Pokud si vezmeme příklad na levé spodní straně obrázku, najdeme apatii, asthenia a abnormální pocity, které vedou k pocitu viny, lze říci, že je to zřejmé, je to zřejmé, protože jako člověk můžete interpretovat a vztahovat se, ale zde stroj interpretuje to a dává nám další nepříznivou drogovou událost.

Příklad slova cloud je níže

Srovnávací tabulka mezi těžbou textu a analýzou textu

Níže jsou uvedeny seznamy bodů, popište srovnání mezi textovou těžbou a textovou analýzou:

Základ pro srovnáníTěžba textuTextová analýza

Význam

Těžba textu je v podstatě vyčištěním dat, která mají být k dispozici pro textovou analýzuText Analytics využívá statistické techniky a techniky strojového učení, aby bylo možné předpovídat / předepisovat nebo odvodit jakékoli informace z textově těžených dat.

Pojem

Těžba textu je nástroj, který pomáhá při čištění dat.Text Analytics je proces uplatňování algoritmů

Rámec

Pokud mluvíme o rámci, dolování textu je podobné ETL (Extract Transform Load), což znamená, že je možné vkládat data do databáze, tyto kroky jsou prováděnyV textové analýze se tato data používají k přidávání hodnot do podniku, například vytváření mraků slov, bigramových frekvenčních diagramů, v některých případech N-gramů

Jazyk

Python a R jsou nejznámějšími nástroji pro dolování textu tam pro těžbu textuPro textovou analýzu, jakmile jsou data k dispozici na úrovni databáze, pak můžeme použít jakýkoli analytický software tam, včetně pythonu a R. Mezi další software patří Power BI, Azure, KNIME atd.

Příklady

  • kategorizace textu
  • shlukování textu
  • extrakce koncepce / entity
  • analýza sentimentu
  • shrnutí dokumentů
  • výroba zrnitých taxonomií
  • Modelování vztahů entit
  • Asociační analýza
  • vizualizace
  • prediktivní analytika
  • vyhledávání informací
  • lexikální analýza
  • rozpoznávání vzorů
  • označování / anotace

Závěr - těžba textu vs textová analýza

Budoucnost textové těžby a textové analýzy se nevztahuje pouze na angličtinu, ale také došlo k neustálému pokroku a používání jazykových nástrojů nejen pro angličtinu, jsou pro analýzu příliš zvažovány i jiné jazyky.

Rozsah a budoucnost těžby textu poroste, protože existují jen omezené zdroje pro analýzu dalších jazyků.

Textová analýza má velmi široký rozsah, ve kterém může být použita. Mezi příklady průmyslových odvětví, ve kterých je možné ji použít, patří:

  • Sledování sociálních médií
  • Pharma / Biotech Applications
  • Obchodní a marketingové aplikace

Doporučený článek

Toto byl průvodce rozdílem mezi těžbou textu a analýzou textu, jejich významem, porovnáním hlava-hlava, klíčovými rozdíly, srovnávací tabulkou a závěrem. Další informace naleznete také v následujících článcích -

  1. Azure Paas vs Iaas-Zjistěte rozdíly
  2. Nejlepší 3 věci, které byste se měli dozvědět o těžbě dat vs těžbě textu
  3. Seznamte se s nejlepším 7 rozdílem mezi analýzou dat těžby dat Vs
  4. Business Intelligence vs Machine Learning - který z nich je lepší
  5. Prediktivní analytika vs dolování dat - který z nich je užitečnější

Kategorie: