Co je NLP v Pythonu?

Umělá inteligence se v posledním desetiletí ohromně vyvinula, a tak je jedním z jejích podpolí - Zpracování přirozeného jazyka. Pokrok v AI je výsledkem obrovské výpočetní kapacity moderních systémů a velkého množství nestrukturovaných dat, která jsou generována z celé řady zdrojů. Zpracování přirozeného jazyka nebo NLP je studie umělé inteligence, která umožňuje počítačům zpracovávat surová nestrukturovaná textová data a extrahovat z nich skryté poznatky.

Definice

Na rozdíl od lidí nejsou počítače dostatečně chytré na zpracování nestrukturovaných dat. Lidské bytosti by mohly odvodit významy z takových dat, zatímco počítače to mohly udělat pouze se strukturovanými daty uloženými v databázích. K nalezení vzorů a odvození významu z přírodních dat používají počítače nástroje a techniky zapojené do NLP pro zpracování těchto dat.

Jak NLP funguje v Pythonu?

Čtení a porozumění angličtině je velmi složité. Níže uvedená věta je jedním z takových příkladů, kdy je pro počítač opravdu obtížné pochopit skutečnou myšlenku za větou.

Ve strojovém učení je potrubí postaveno pro každý problém, kde je každý problém vyřešen samostatně pomocí ML. Konečným výsledkem by byla kombinace několika modelů strojového učení zřetězených dohromady. Zpracování přirozeného jazyka funguje podobně jako v případě, kdy je anglická věta rozdělena na kousky.

V tomto odstavci je uvedeno několik skutečností. Věci by byly snadné, kdyby samy počítače rozuměly tomu, co je Londýn, ale za tímto účelem musí být počítače vyškoleny se základními pojmy psaného jazyka.

1. Segmentace věty - Korpus je rozdělen do několika vět, jako níže.

To by náš život usnadnilo, protože je lepší zpracovat jednu větu než odstavec jako celek. Rozdělení může být provedeno na základě interpunkcí nebo několika dalších komplikovaných technik, které pracují také na nečistých datech.

2. Tokenizace slov - Věta může být dále rozdělena na token slov, jak je ukázáno níže.

Po tokenizaci je výše uvedená věta rozdělena na -

3. Části predikce řeči - tento proces je o vytváření částí řeči pro každý token. To by nám umožnilo pochopit význam věty a téma, o kterém se ve větě mluví.

4. Lemmatizace - Slovo ve větě se může objevit v různých podobách. Lemmatizace sleduje slovo zpět do jeho kořene, tj. Lemma každého slova.

5. Identifikace stop slov - Ve větě je spousta výplňových slov, jako je „, “ a, a. Tato slova působí jako text v textu, jehož význam se pokoušíme extrahovat. Abychom vytvořili lepší model, je nutné odfiltrovat tato stopová slova.

Podle aplikace se mohou slova stop lišit. Existuje však předdefinovaný seznam zastavovacích prací, na které by se mohl odkazovat.

6. Uznávání pojmenovaných entit - NER je proces hledání entit, jako je jméno, místo, osoba, organizace atd., Z věty.

Zde se používá kontext vzhledu slova ve větě. Pro získání strukturovaných dat z textu mají systémy NER mnoho využití.

Příklad NLP v Pythonu

Většina společností je nyní připravena zpracovat nestrukturovaná data pro růst svého podnikání. NLP má širokou škálu použití a mezi nejčastější případy použití patří Klasifikace textu.

Klasifikace textu do různých kategorií se automaticky nazývá klasifikace textu. Zjišťování spamu nebo šunky v e-mailu, kategorizace novinových článků, jsou některé z běžných příkladů klasifikace textu. Údaje použité pro tento účel musí být označeny.

Těch několik kroků v potrubí pro klasifikaci textu, které je třeba dodržovat, jsou -

  • Načítání a předběžné zpracování dat je prvním krokem, poté by bylo rozděleno na vlak a ověřovací sada.
  • Krok Feature Engineering zahrnuje extrahování užitečných funkcí nebo vytvoření dalších smysluplných funkcí, které by pomohly při vývoji lepšího prediktivního modelu.
  • K vytvoření modelu se k tréninku modelu použije datový soubor se štítkem.

Pandy, Scikit-learn, XGBoost, TextBlog, Keras jsou jen některé z nezbytných knihoven, které musíme nainstalovat. Pak bychom knihovny importovali pro přípravu sady dat, inženýrství funkcí atd.

Data jsou obrovská a odtud lze stáhnout téměř 3, 6 milionu recenzí. Používá se zlomek dat. Stáhne se a načte do datového rámce Pandas.

Cílová proměnná je kódována a data jsou rozdělena do vlaku a testovacích sad.

Inženýrství funkcí se provádí pomocí níže uvedených různých metod.

1. Počítací vektory - Reprezentace dokumentu, termínu a jeho frekvence z korpusu je dosažena počítacími vektory.

2. Vektory TF-IDF - V dokumentu je relativní význam termínu reprezentován termínem Frekvence (TF) a skóre inverzní frekvence dokumentu (IDF). TF-IDF lze vypočítat pomocí -

Vektory TF-IDF by mohly být generovány na úrovni Wordu, která představuje skóre každého termínu, a N-gramové úrovně, která je kombinací n-podmínek.

3. Vkládání slov - Reprezentace dokumentů a slov ve formě hustého vektoru se označuje jako vkládání slov. Existují předem zaškolené vložení, jako je Rukavice, Word2Vec, které lze použít nebo také vyškolit.

4. Tématické modely - Jedná se o skupinu slov z dokumentu, která obsahuje nejvíce informací. Pro modelování témat se zde používá alokace latentních dirichletů.

Režim je vytvořen po dokončení inženýrství prvků a po extrahování příslušných prvků.

5. Naivní Bayes - Je založen na Bayesově teorémě a algoritmus se domnívá, že mezi funkcemi datové sady neexistuje žádný vztah.


6. Logistická regrese - měří lineární vztah mezi vlastnostmi a cílová proměnná se měří na základě sigmoidní funkce, která odhaduje pravděpodobnosti.


7. Podpora vektorového stroje - hyperplán odděluje dvě třídy v SVM.


8. Model náhodného lesa - model souboru, kde se snižuje rozptyl a sbalí více rozhodovacích stromů dohromady.


9. XG Boost - zkreslení je omezeno a slabí studenti jsou převedeni na silné.

Jak vám NLP pomůže ve vaší kariéře?

Zpracování přirozeného jazyka je na trhu na vzestupu a téměř každá organizace potřebuje technik NLP, který jim pomůže zpracovat nezpracovaná data. Je proto nezbytné zvládnout požadované dovednosti, protože na trhu by neměl být nedostatek pracovních míst.

Závěr: NLP v Pythonu

V tomto článku jsme začali úvodem do NLP v Pythonu a poté jsme implementovali jeden případ použití v Pythonu, abychom ukázali, jak pracovat s NLP v Pythonu.

Doporučené články

Toto byl průvodce NLP v Pythonu. Zde jsme diskutovali příklad, případy použití a jak pracovat s NLP v Pythonu. Další informace naleznete také v dalších navrhovaných článcích -

  1. Použití Pythonu
  2. Co je WBS?
  3. Python vs Scala
  4. Co je Tableau?

Kategorie: