Úvod do životního cyklu datových věd

Data Science Lifecycle se točí kolem použití strojového učení a dalších analytických metod k získání poznatků a předpovědí z dat za účelem dosažení obchodního cíle. Celý proces zahrnuje několik kroků, jako je čištění dat, příprava, modelování, vyhodnocení modelu atd. Je to dlouhý proces a dokončení může trvat několik měsíců. Je tedy velmi důležité mít obecnou strukturu, která bude následovat každý problém. Globálně uznávaná struktura při řešení jakéhokoli analytického problému se nazývá Cross Industry Standard Process pro těžbu dat nebo rámec CRISP-DM.

Životní cyklus datové vědy

Níže je uveden projekt Životní cyklus datových věd.

1. Obchodní porozumění

Celý cyklus se točí kolem obchodního cíle. Co vyřešíte, pokud nemáte přesný problém? Je nesmírně důležité pochopit obchodní cíle jasně, protože to bude váš konečný cíl analýzy. Pouze po správném porozumění můžeme stanovit konkrétní cíl analýzy, který je v souladu s obchodním cílem. Musíte vědět, zda chce klient snížit úvěrovou ztrátu, nebo zda chce předpovědět cenu komodity atd.

2. Porozumění datům

Po obchodním porozumění je dalším krokem porozumění datům. To zahrnuje sběr všech dostupných údajů. Zde musíte úzce spolupracovat s obchodním týmem, protože si jsou vědomi, jaká data jsou k dispozici, jaká data by mohla být použita pro tento obchodní problém a další informace. Tento krok zahrnuje popis dat, jejich strukturu, jejich relevanci, jejich datový typ. Prozkoumejte data pomocí grafických grafů. V podstatě získávání veškerých informací, které můžete o datech získat, pouhým prozkoumáním dat.

3. Příprava dat

Dále přichází fáze přípravy dat. To zahrnuje kroky, jako je výběr relevantních dat, integrace dat sloučením datových sad, jejich čištění, ošetření chybějících hodnot jejich odstraněním nebo imputací, ošetření chybných dat jejich odstraněním, také kontrola outliers pomocí grafů a manipulace s nimi . Vytváření nových dat, odvození nových funkcí z existujících. Naformátujte data do požadované struktury, odstraňte nežádoucí sloupce a funkce. Příprava dat je časově nejnáročnější, ale pravděpodobně nejdůležitější krok v celém životním cyklu. Váš model bude stejně dobrý jako vaše data.

4. Průzkumná analýza dat

Tento krok zahrnuje získání představy o řešení a faktorech, které jej ovlivňují, před vytvořením skutečného modelu. Distribuce dat v různých proměnných prvku je graficky zkoumána pomocí sloupcových grafů, vztahy mezi různými prvky jsou zachyceny pomocí grafických znázornění, jako jsou rozptylové grafy a tepelné mapy. Mnoho jiných technik vizualizace dat je široce používáno k prozkoumání každé funkce jednotlivě a jejich kombinací s dalšími funkcemi.

5. Modelování dat

Modelování dat je jádrem analýzy dat. Model bere připravená data jako vstup a poskytuje požadovaný výstup. Tento krok zahrnuje výběr vhodného typu modelu, ať už jde o klasifikační problém nebo o regresní problém nebo o problém shlukování. Po výběru rodiny modelů, mezi různými algoritmy v této rodině, musíme pečlivě vybrat algoritmy k jejich implementaci a implementaci. Abychom dosáhli požadovaného výkonu, musíme vyladit hyperparametry každého modelu. Musíme se také ujistit, že existuje správná rovnováha mezi výkonem a zobecněním. Nechceme, aby se model naučil data a špatně fungoval na nových datech.

6. Hodnocení modelu

Zde je model vyhodnocen pro kontrolu, zda je připraven k nasazení. Model je testován na neviditelných datech, vyhodnocen na pečlivě promyšlené sadě hodnotících metrik. Musíme se také ujistit, že model odpovídá skutečnosti. Pokud při hodnocení nedosáhneme uspokojivého výsledku, musíme celý proces modelování znovu opakovat, dokud není dosaženo požadované úrovně metrik. Jakékoli řešení pro vědu o údajích, model strojového učení, stejně jako člověk, by se mělo vyvíjet, mělo by být schopno se zdokonalit novými daty, přizpůsobit se nové metrice hodnocení. Můžeme vytvořit více modelů pro určitý jev, ale mnoho z nich může být nedokonalé. Hodnocení modelu nám pomáhá vybrat a vytvořit dokonalý model.

7. Nasazení modelu

Model po důkladném vyhodnocení je nakonec nasazen v požadovaném formátu a kanálu. Toto je poslední krok v životním cyklu datové vědy. Každý krok životního cyklu datové vědy vysvětlený výše by měl být pečlivě zpracován. Pokud je jakýkoli krok proveden nesprávně, bude to mít vliv na další krok a celé úsilí jde do odpadu. Například, pokud data nebudou shromažďována správně, ztratíte informace a nebudete stavět dokonalý model. Pokud data nebudou řádně vyčištěna, model nebude fungovat. Pokud nebude model správně vyhodnocen, v reálném světě selže. Od obchodního porozumění až po nasazení modelu by měl být každému kroku věnována náležitá pozornost, čas a úsilí.

Doporučené články

Toto je průvodce životním cyklem Data Science. Zde diskutujeme přehled životního cyklu datové vědy a kroky, které tvoří životní cyklus datové vědy. Další informace naleznete také v souvisejících článcích -

  1. Úvod do datových vědních algoritmů
  2. Data Science vs Softwarové inženýrství 8 nejlepších užitečných srovnání
  3. Rozdílné typy datových věd
  4. Dovednosti s datovými vědami s typy

Kategorie: