Zavedení procesu ETL

ETL je jedním z důležitých procesů, které vyžaduje Business Intelligence. Business Intelligence se spoléhá na data uložená v datových skladech, ze kterých je generováno mnoho analýz a sestav, což pomáhá při vytváření účinnějších strategií a vede k taktickým a provozním poznatkům a rozhodování.

ETL označuje proces extrakce, transformace a načtení. Je to druh integrace dat, kde jsou data pocházející z různých zdrojů extrahována a odeslána do datových skladů. Data jsou extrahována z různých zdrojů, nejprve se transformují a převádějí do konkrétního formátu podle obchodních požadavků. Různé nástroje, které pomáhají provádět tyto úkoly, jsou -

  • IBM DataStage
  • Abinitio
  • Informatica
  • Živý obraz
  • Talend

Proces ETL

Jak to funguje?

Proces ETL je tříkrokový proces, který začíná extrakcí dat z různých datových zdrojů a poté nezpracovanými daty prochází různými transformacemi, aby byly vhodné pro ukládání do datového skladu a načteny do datových skladů v požadovaném formátu a připraveny pro analýza.

Krok 1: Extrahujte

Tento krok se týká vyvolání požadovaných dat z různých zdrojů, které jsou přítomny v různých formátech, jako jsou XML, soubory Hadoop, ploché soubory, JSON atd. Extrahovaná data jsou uložena v pracovní oblasti, kde se provádějí další transformace. Data jsou tedy před přesunem do datových skladů důkladně zkontrolována, jinak bude úkolem vrátit změny v datových skladech zpět.

Než dojde k extrakci dat, je zapotřebí řádná datová mapa mezi zdrojem a cílem, protože proces ETL musí interagovat s různými systémy, jako jsou Oracle, Hardware, Mainframe, systémy v reálném čase, jako jsou ATM, Hadoop atd., Zatímco načítá data z těchto systémů. .

Poznámka - Je však třeba dbát na to, aby tyto systémy během extrakce zůstaly nedotčeny.

Strategie extrakce dat
  • Úplná extrakce: Toto je následováno, když jsou celá data ze zdrojů načtena do datových skladů, které ukazují, že je datový sklad naplněn poprvé nebo nebyla provedena žádná strategie pro extrakci dat.
  • Částečná extrakce (s upozorněním na aktualizaci): Tato strategie je také známa delta, kde se extrahují pouze změněná data a aktualizují datové sklady.
  • Částečná extrakce (bez oznámení o aktualizaci): Tato strategie se týká extrahování specifických požadovaných dat ze zdrojů podle zatížení v datových skladech místo extrahování celých dat.

Krok 2: Transformace

Tento krok je nejdůležitějším krokem ETL. V tomto kroku je provedeno mnoho transformací, aby byla data připravena k načtení v datových skladech použitím transformací níže: -

A. Základní transformace: Tyto transformace se používají v každém scénáři, protože jsou základní potřebou při načítání dat, která byla extrahována z různých zdrojů, do datových skladů.

  • Čištění nebo obohacení dat: Jedná se o čištění nežádoucích dat z pracovní oblasti, aby se z datových skladů nenačtila nesprávná data.
  • Filtrování: Zde vyfiltrujeme požadovaná data z velkého množství dat přítomných podle obchodních požadavků. Například pro generování reportů o prodeji potřebujete pouze záznamy o prodeji pro daný konkrétní rok.
  • Konsolidace: Extrahovaná data jsou před načtením do datových skladů konsolidována v požadovaném formátu.
  • Standardizace: Datová pole jsou transformována tak, aby byla uvedena ve stejném požadovaném formátu, např. Datové pole musí být specifikováno jako MM / DD / RRRR.

B. Pokročilé transformace: Tyto typy transformací jsou specifické pro obchodní požadavky.

  • Spojení: V této operaci jsou data ze 2 nebo více zdrojů kombinována t generují data pouze s požadovanými sloupci s řádky, které spolu souvisejí
  • Kontrola platnosti datového limitu: Hodnoty přítomné v různých polích se kontrolují, pokud jsou správné nebo ne, jako například nulové číslo bankovního účtu v případě bankovních údajů.
  • Pro sloučení dat použijte vyhledávání: Různé ploché soubory nebo jiné soubory se používají k extrahování konkrétních informací provedením vyhledávání.
  • Použití jakékoli komplexní validace dat: Mnoho komplexních validací se používá k extrahování platných dat pouze ze zdrojových systémů.
  • Vypočítané a odvozené hodnoty: Pro transformaci dat do některých požadovaných informací se používají různé výpočty
  • Duplikace: Duplicitní data pocházející ze zdrojových systémů jsou analyzována a odstraněna před jejich načtením do datových skladů.
  • Restrukturalizace klíčů: V případě zachycení pomalu se měnících dat je třeba vygenerovat různé náhradní klíče pro strukturování dat v požadovaném formátu.

Poznámka : Paralelní zpracování MPP-Massive Parallel Processing se někdy používá k provádění některých základních operací, jako je filtrování nebo čištění dat v pracovní oblasti, aby bylo možné rychle zpracovat velké množství dat.

Krok 3: Načíst

Tento krok se týká načtení transformovaných dat do datového skladu, odkud je lze použít ke generování mnoha analytických rozhodnutí, jakož i vykazování.

1. Počáteční zatížení: K tomuto typu zatížení dochází při prvním načítání dat do datových skladů.

2. Přírůstkové zatížení: Jedná se o typ zatížení, které se provádí za účelem pravidelné aktualizace datového skladu se změnami ve zdrojových systémových datech.

3. Úplné obnovení: Tento typ zatížení se týká situace, kdy jsou úplná data tabulky vymazána a načtena novými daty.

Datový sklad pak umožňuje funkce OLAP nebo OLTP.

Nevýhody ETL procesu

  1. Zvyšování dat - Existuje limit dat extrahovaných z různých zdrojů pomocí nástroje ETL a tlačených do datových skladů. S nárůstem dat se tak práce s nástrojem ETL a datovými sklady stává těžkopádnou.
  2. Přizpůsobení - Jedná se o rychlá a efektivní řešení nebo reakce na data generovaná zdrojovými systémy. Ale použití nástroje ETL zde zpomaluje tento proces.
  3. Drahé - Používání datového skladu k periodickému ukládání rostoucího množství generovaných dat je vysoká cena, kterou organizace musí zaplatit.

Závěr - ETL proces

Nástroj ETL zahrnuje procesy extrakce, transformace a načítání, kde pomáhá vytvářet informace z dat získaných z různých zdrojových systémů. Data ze zdrojového systému mohou být v libovolném formátu a mohou být načtena v libovolném požadovaném formátu v datových skladech, takže nástroj ETL musí podporovat připojení ke všem typům těchto formátů.

Doporučené články

Toto je průvodce procesem ETL. Zde diskutujeme úvod, jak to funguje ?, ETL Tools a jeho nevýhody. Další informace naleznete také v dalších navrhovaných článcích -

  1. Nástroje Informatica ETL
  2. Nástroje pro testování ETL
  3. Co je ETL?
  4. Co je ETL testování?

Kategorie: