Úvod do předzpracování dat ve strojovém učení

Předzpracování dat ve strojovém učení je způsob, jak převést data ze surové formy do mnohem více formátované, nepoužitelné nebo požadované formy. Jedná se o nedílnou úlohu strojového učení, kterou provádí vědec údajů. Vzhledem k tomu, že shromážděná data jsou v nezpracovaném formátu, nemusí být proveditelné vycvičit model pomocí něj. Je důležité, aby tato surová data byla zpracována pečlivě, aby z nich byla provedena správná interpretace a aby se konečně zabránilo jakémukoli negativnímu výsledku v predikci. Stručně řečeno, kvalita našeho algoritmu učení velmi závisí na typu datového souboru, který jsme použili k napájení modelu, takže k udržení této kvality se používá předběžné zpracování dat.

Data shromážděná pro výcvik modelu pocházejí z různých zdrojů. Tato shromážděná data jsou obvykle v nezpracovaném formátu, tj. Mohou mít zvuky jako chybějící hodnoty a relevantní informace, čísla ve formátu řetězce atd. Nebo mohou být nestrukturovaná. Předběžné zpracování dat zvyšuje účinnost a přesnost modelů strojového učení. Pomáhá při odstraňování těchto hluků z datové sady a datového souboru a dává datovému souboru smysl

Šest různých kroků zapojených do strojového učení

Následuje šest různých kroků zapojených do strojového učení pro předzpracování dat:

Krok 1: Import knihoven

Krok 2: Import dat

Krok 3: Kontrola chybějících hodnot

Krok 4: Kontrola kategorických dat

Krok 5: Měřítko funkce

Krok 6: Rozdělení dat do výcvikových, validačních a vyhodnocovacích sad

Podrobně porozumíme každému z těchto kroků:

1. Import knihoven

Prvním krokem je import několika důležitých knihoven požadovaných při předběžném zpracování dat. Knihovna je kolekce modulů, které lze volat a používat. V Pythonu máme spoustu knihoven, které jsou užitečné při předběžném zpracování dat.

Několik z následujících důležitých knihoven v Pythonu je:

  • Numpy: Knihovna se nejčastěji používala pro implementaci nebo použití komplikovaného matematického výpočtu strojového učení. To je užitečné při provádění operace na vícerozměrných polích.
  • Pandy : Jedná se o knihovnu opensource, která poskytuje vysoký výkon a snadno použitelné nástroje pro analýzu a analýzu dat v pythonu. Je navržen tak, aby práce s relacemi a označenými daty byla snadná a intuitivní.
  • Matplotlib: Jedná se o vizualizační knihovnu poskytovanou pythonem pro 2D plots o pole. Je postaven na numpy poli a je navržen pro práci s širším stackem Scipy. Vizualizace datových sad je užitečná ve scénáři, kde jsou k dispozici velká data. Grafy dostupné v matplot lib jsou čára, sloupec, rozptyl, histogram atd.
  • Seaborn: Je to také vizualizační knihovna poskytovaná pythonem. Poskytuje rozhraní na vysoké úrovni pro kreslení atraktivních a informativních statistických grafů.

2. Import datové sady

Po importu knihoven je dalším krokem načtení shromážděných dat. Knihovna Pandas se používá k importu těchto datových sad. Většinou jsou datové sady k dispozici ve formátech CSV, protože mají malou velikost, což zrychluje zpracování. Chcete-li načíst soubor CSV pomocí funkce read_csv knihovny panda. Různé další formáty datové sady, které lze vidět, jsou

Jakmile je datový soubor načten, musíme jej zkontrolovat a vyhledat jakýkoli šum. K tomu musíme vytvořit matici X a pozorovací vektor Y vzhledem k X.

3. Kontrola chybějících hodnot

Jakmile vytvoříte matici funkcí, můžete najít nějaké chybějící hodnoty. Pokud to nezvládneme, může to způsobit problém v době tréninku.

Chybné hodnoty lze zpracovat dvěma způsoby:

  1. Odebráním celého řádku, který obsahuje chybějící hodnotu, ale může dojít ke ztrátě některých důležitých informací. To může být dobrý přístup, pokud je velikost souboru dat velká.
  2. Pokud číselný sloupec chybí, můžete jej odhadnout pomocí střední hodnoty, mediánu, režimu atd.

4. Kontrola kategorických dat

Data v datovém souboru musí být v numerické podobě, aby na něm bylo možné provést výpočet. Vzhledem k tomu, že modely strojového učení obsahují složité matematické výpočty, nemůžeme jim poskytnout nečíselnou hodnotu. Proto je důležité převést všechny textové hodnoty na číselné hodnoty. Třída naučených LabelEncoder () se používá k zakrytí těchto kategorických hodnot do číselných hodnot.

5. Měřítko funkce

Hodnoty prvotních dat se velmi liší a může to vést k předpojatému tréninku modelu nebo může vést ke zvýšení výpočetních nákladů. Je proto důležité je normalizovat. Měřítko funkce je technika, která se používá k přiblížení hodnoty dat v kratším rozsahu.

Metody používané pro škálování funkcí jsou:

  • Změna měřítka (min-max normalizace)
  • Průměrná normalizace
  • Standardizace (Z-skóre normalizace)
  • Přizpůsobení na délku jednotky

6. Rozdělení dat do výcvikových, validačních a vyhodnocovacích sad

Nakonec potřebujeme rozdělit naše data do tří různých sad, tréninkové sady pro trénink modelu, ověřovací sady pro ověření přesnosti našeho modelu a nakonec testovací sady pro testování výkonu našeho modelu na obecných datech. Před rozdělením datové sady je důležité zamíchat datovou sadu, aby nedošlo k předpojatostem. Ideální poměr k rozdělení datového souboru je 60:20:20, tj. 60% jako sada školení, 20% jako sada testů a ověření. Chcete-li rozdělit datový soubor, použijte dvakrát train_test_split of sklearn.model_selection. Jednou rozdělte datový soubor na vlak a ověřovací sadu a poté rozdělte zbývající datový soubor na vlak a testovací sadu.

Závěr - předzpracování dat ve strojovém učení

Předběžné zpracování dat je něco, co vyžaduje praxi. Není to jako jednoduchá datová struktura, ve které se učíte a aplikujete přímo k vyřešení problému. Abyste získali dobré znalosti o tom, jak vyčistit dataset nebo jak vizualizovat dataset, musíte pracovat s různými datovými sadami.

Čím více budete tyto techniky používat, tím lepší porozumění získáte. To byla obecná představa o tom, jak zpracování dat hraje důležitou roli ve strojovém učení. Spolu s tím jsme také viděli kroky potřebné k předběžnému zpracování dat. Takže příště, než začnete model trénovat pomocí sebraných dat, nezapomeňte použít předběžné zpracování dat.

Doporučené články

Toto je průvodce předzpracování dat ve strojovém učení. Zde diskutujeme úvod, šest různých kroků zapojených do strojového učení. Další informace naleznete také v dalších navrhovaných článcích -

  1. Význam umělé inteligence
  2. Technologie internetu věcí
  3. Datové typy PL / SQL
  4. Typy úlů
  5. R Datové typy

Kategorie: