Úvod do datového jezera a datového skladu

Data Lake vs Data Warehouse jsou pojmy, které se používají zaměnitelně, ale mezi oběma těmito pojmy jsou rozdíly. Představili jsme níže uvedený diagram, abychom pochopili rozdíl na vysoké úrovni mezi těmito dvěma a velmi brzy se podrobně podíváme na každý z nich.

Co je to datové jezero?

Datové jezero je druh úložiště úložiště, které sestává pouze ze surových dat, která jsou ve formě strukturovaného, ​​polostrukturovaného a nestrukturovaného formátu. Datové jezero většinou používají vědci v oblasti dat a inženýři strojového učení, protože jim pomáhá odpovídat na otázky, které ještě nebyly zodpovězeny, nebo možná vytvořit otázku, která ještě není známa. Obsahuje obrovský soubor dat s různými typy a když jsou integrována, je velmi užitečná, pokud jde o prediktivní modelování, které se většinou používá k vytváření modelů strojového učení.

Co je datový sklad?

Datový sklad je centralizované místo pro ukládání transformovaných dat, která jsou provedena do strukturovaného formátu před jejich uložením do datového skladu. Datový sklad může mít data z více zdrojů dat, která jsou načtena pomocí procesu ETL do skladu a poté použita pro účely Business Intelligence.

Porovnání mezi jednotlivými daty mezi datovým jezerem a datovým skladem (infografika)

Níže je uvedeno 14 největších rozdílů mezi datovým jezerem a datovým skladem

Klíčové rozdíly

Níže jsou uvedeny hlavní klíčové rozdíly mezi datovým jezerem a datovým skladem:

  • Skládá se z nestrukturovaných a strukturovaných dat z různých platforem, jako jsou senzory, aplikace a webové stránky atd. Většinou sestává z relačních dat ze systémů RDBMS, DBMS a dalších provozních databází a aplikací.
  • Data Lake je zpracování schématu při čtení. Datový sklad je zpracování schématu při zápisu.
  • Je velmi pohyblivý. Je méně pohyblivý.
  • Konfigurace je snadná a může se přizpůsobit změnám. Má pevnou konfiguraci a je velmi obtížné jej změnit.
  • Většinou ji používají vědci AI a odborníci na strojové učení. Je používán obchodními profesionály.

Srovnávací tabulka mezi datovým jezerem a datovým skladem:

Pojďme diskutovat o největším rozdílu mezi datovým jezerem a datovým skladem

VlastnostiDatové jezeroDatový sklad
Úložný prostorData jsou v Data Lake uchovávána v nezpracované formě a zde jsou všechna data uchovávána bez ohledu na zdroj dat. Do jiných forem se přeměňují, kdykoli je to potřeba.Datový sklad se skládá z dat, která jsou extrahována z transakčních a jiných metrických systémů. Zde data nejsou v surové formě a jsou vždy transformována a čistá.
Použití a účelHlavním cílem společnosti Data Lake jsou vědci v oblasti dat, vývojáři velkých dat a inženýři strojového učení, kteří musí udělat hlubokou analýzu, aby vytvořili modely pro podnikání, jako je prediktivní modelování.Hlavním cílem Data Warehouse jsou provozní uživatelé, protože tato data jsou ve strukturovaném formátu a mohou poskytovat připravené sestavy. Většinou se používají pro obchodní zpravodajství.
Vstupy datHlavními vstupy do datového jezera jsou všechny druhy dat, jako jsou strukturovaná, polostrukturovaná a nestrukturovaná data. Tato data jsou uložena v datovém jezeře v jejich původní podobě.Hlavními vstupy do datového skladu jsou strukturovaná data, která pocházejí z transakčních a metrických systémů, které jsou pak organizovány ve formě schémat.
Kvalita datObsahuje nezpracovaná data, která mohou nebo nemusí být označována.Sestává z spravovaných dat, která jsou centralizována a je připravena k podání žaloby pro účely business intelligence a analytics.
NormalizaceZde data nejsou v normalizované podobě.Denormalizovaná schémata
DějinyTechnologie používané v datových jezerech jako Hadoop, Machine Learning jsou ve srovnání s datovým skladem relativně nové.Zde je technologie používaná pro datový sklad starší.
Časová osa datDatové jezero může mít všechny druhy dat a může být použito s ohledem na minulost, přítomnost a vyhlídky.Pokud jde o datový sklad, zde se většinu času věnuje analýze různých zdrojů dat.
Doba zpracováníZde je doba zpracování při analýze a získávání výsledků z dat Jezero je mnohem menší než u Data Warehouse, protože zde jsou data uložena ve formě prvotních dat a ta nejsou v transformovaném formátu a v důsledku toho jsme zkrátili čas které by se mohly utrácet za transformaci dat. Můžeme jen vyzvednout data tak jak jsou a provést základní čištění a začít stavět naše modely.V případě datového skladu je čas, který je spotřebován na zpracování, ve srovnání s datovým jezerem. Důvodem je to, že data v jakémkoli datovém skladu musí být nejprve transformována a poté může být analyzována.
Náklady na skladováníNáklady na skladování zde v technologiích datových jezer jsou relativně nižší než náklady na datový sklad a jsou také méně časově náročné.Náklady na skladování v technologiích datového skladu jsou ve srovnání s datovým jezerem vyšší. Je to proto, že potřebuje více úložiště pro transformovaná data, protože nejprve musí ukládat nezpracovaná data a poté je transformovat, aby přiřadila různá pole podle struktury datového skladu.
KompatibilitaZde jsou data vždy uchovávána v nezpracovaném formátu a jsou transformována pouze v případě potřeby nebo kdy je připravena k použití.Zde jsou data uložena v transformovaném formátu a při pokusu o provedení změn se můžeme setkat s problémy.
PřístupnostData uvnitř datového jezera jsou vysoce přístupná a lze je rychle aktualizovat.Data uvnitř datového skladu jsou komplikovanější a vyžaduje si vyšší náklady, aby do nich mohly být provedeny jakékoli změny, dostupnost je také omezena pouze autorizovaným uživatelům.
Pozice schématuSchéma se většinou vytvoří po uložení dat. To přináší vysokou pohyblivost.Zde je schéma většinou vytvořeno před uložením dat.
Proces zpracováníDatové jezero využívá proces ELT, tj. Extrahovat, načíst a transformovat.Datový sklad používá tradiční přístup ETL, tj. Extrahovat, transformovat a načíst.
VýhodyData Lake vede k novým vynálezům, protože integrace sdružuje různé typy dat a také přináší odpovědi na mnoho nezodpovězených otázek.Většina uživatelů organizace je zapojena do provozních činností a datový sklad poskytuje jednu tak skvělou platformu pro vytváření sestav a metrik nad transformovanými daty.

Závěr

V tomto příspěvku jsme se dozvěděli o Data Lakes vs Data Warehouse. Také jsme pokročili a oba jsme porovnali na základě různých parametrů. To by mělo každému žákovi pomoci získat základní představu o technologiích, které podporují Data Lake a Data Warehouse.

Doporučené články

Toto byl průvodce největším rozdílem mezi datovým jezerem a datovým skladem. Zde diskutujeme klíčové rozdíly mezi datovým jezerem a datovým skladem s infografikou a srovnávací tabulkou. Další informace naleznete také v následujících článcích -

  1. Scrum vs Waterfall - hlavní rozdíly
  2. MySQL vs MySQLi - Který z nich je lepší?
  3. Mikroprocesor vs. mikrokontrolér
  4. Rozhovory s otázkami modelování dat

Kategorie: