Data Warehouse vs Hadoop - 6 důležitých rozdílů, které byste měli vědět

Obsah:

Anonim

Rozdíly mezi datovým skladem a Hadoopem

V každém desetiletí zažívá IT průmysl zásadní inovaci, která otřese celým IT průmyslem. V posledních letech udělal Apache Hadoop to samé tím, že do datových center vložil novou infrastrukturu

Tím, že programátor Hadoop dává možnost paralelního zpracování na takovém exponenciálním nárůstu adopce a jeho ekosystém se rozšiřuje v hloubce i šíři, je přirozené se ptát, zda Hadoop's nahradí tradiční datový sklad.

Podívejme se, co řekl Alasdair Anderson (výkonný viceprezident společnosti Nordea) na summitu v Hadoopu o tomto žhavém tématu ve městě.

"Právě teď mezi EDW a Hadoopem neexistuje žádný vztah - budou se doplňovat." Nejde o ripování a nahrazování: nebudeme se zbavovat RDBMS nebo MPP, ale místo toho používáme správný nástroj pro správnou práci - a to bude velmi ovlivněno cenou.

Kdykoli začne tato zajímavá diskuse, napadne nás mnoho otázek jako:

1) Pokud máte velká data, potřebujete datový sklad?

2) Nahradí Hadoop datový sklad?

3) Je to smrt tradiční éry Data Warehouse?

Abychom mohli znát odpovědi na všechny tyto otázky, musíme se podívat do širšího kontextu tohoto obrázku.

1. Co je to Hadoop?

Kdo neslyšel o Big Data v poslední době? Se stovkami terabajtů dat generovaných každý den z různých zdrojů je jasné, že dnešní moderní svět je svět velkých dat

Když začnete mluvit o velkých datech, dříve nebo později začnete diskutovat o nejžhavějším tématu světa velkých dat: Hadoop - ale co přesně to je?

Hadoop je open-source programovací rámec založený na Javě, který podporuje zpracování a ukládání extrémně velkých datových sad v distribuovaném výpočetním prostředí.

4 moduly Hadoop -

Hadoop se skládá ze 4 modulů -

  1. Distribuovaný systém souborů

Distribuovaný systém souborů umožňuje ukládat data ve snadno přístupném formátu na velké množství propojených úložných zařízení.

  1. Mapa Reduce

Map Reduce je kombinací dvou operací - čtení dat z databáze a jejich uvedení do formátu vhodného pro analýzu (mapu) a provádění matematických operací (snížení).

  1. Hadoop obyčejný

Hadoop Common poskytuje nástroje potřebné pro data uložená v HDFS (Hadoop Distributed File System)

  1. PŘÍZE

YARN spravuje zdroje systémů ukládajících data a provádí analýzu.

2. Co je to datový sklad?

Datový sklad je relační databáze, která je určena pro data dotazů a analýz. Obvykle obsahuje historická data odvozená z různých zdrojů.

Prostředí datového skladu zahrnuje řešení ETL, online analytické zpracování (OLAP), nástroje pro analýzu klientů a další aplikace, které řídí proces analýzy dat a jejich poskytování podnikovým uživatelům.

Shrňme, co je datový sklad -

  1. Předmět-orientovaný

Datový sklad lze použít k analýze konkrétní oblasti, jako je prodej, finance a zásoby. Každá oblast předmětu obsahuje podrobné údaje.

  1. Integrovaný

Datový sklad integruje data z více zdrojů dat. Například data jsou ve stejném formátu, kódy muž / žena jsou konzistentní. V datovém skladu bude existovat pouze jediný způsob identifikace produktu a používají stejný zákaznický záznam, nikoli kopie

  1. Non-volatile

Data jsou uložena v datovém skladu nezměněna a nezmění se. Historická data v datovém skladu by se tedy nikdy neměla měnit.

  1. Časová varianta

z datového skladu lze načíst data od 3 měsíců, 6 měsíců, 12 měsíců nebo i starších dat.

  1. Není virtuální

Datový sklad je fyzické, trvalé úložiště.

Datový sklad vs Hadoop (infografika)

Níže je prvních 6 srovnání mezi Data Warehouse vs Hadoop

Datový sklad vs Hadoop - Který z nich použít?

  • Pokud máte čistá, konzistentní a vysoce kvalitní data, měli byste jít do Data Warehouse, protože Hadoop v některých svých řešeních nemá kvalitu dat.
  • Pokud máte nezpracovaná nestrukturovaná data, měli byste jít na Hadoop, protože Hadoop dobře pracuje s nestrukturovanými / nezpracovanými daty, ale Data Warehouse pracuje pouze se strukturovanými daty.
  • V případě zpráv s nízkou latencí a interaktivních zpráv byste měli jít do datového skladu
  • Pro OLTP / Real-time / Point Queries byste měli jít do Data Warehouse, protože Hadoop dobře pracuje s dávkovými daty.
  • U datových sad s velkým objemem byste měli jít na Hadoop, protože Hadoop je navržen tak, aby řešil velké datové problémy.

Porovnávací tabulka Head to Head mezi datovým skladem vs Hadoop

Níže je uveden seznam bodů, které popisují srovnání mezi datovým skladem a Hadoopem

Základ pro srovnáníDatový skladHadoop
DataV datovém skladu analyzujeme strukturovaná a zpracovaná dataV Hadoopu můžeme zpracovat jakýkoli druh dat, včetně strukturovaných / nestrukturovaných / polostrukturovaných a nezpracovaných
zpracovává seJeho zpracování je založeno na konceptech schématu při zápisuJeho zpracování je založeno na konceptech typu on-on-read
Úložný prostorVhodné pro data s malým objemem a je to příliš drahé pro velké objemy datFunguje dobře s velkými datovými soubory, které mají obrovský objem, rychlost a rozmanitost
hbitostJe méně pohyblivý a má pevnou konfiguraciJe vysoce pohyblivý, konfigurujte a podle potřeby překonfigurujte
BezpečnostníTechnologie datových skladů existují již desetiletí. Z hlediska bezpečnosti se tedy můžeme spolehnout na Data WarehouseZatímco technologie Hadoop jsou ve srovnání s datovým skladem relativně nové, zabezpečení je zde velkým problémem
UživateléObchodní profesionálové obvykle používají datový skladHadoop je docela slavný v oblasti datové vědy a datového inženýrství

Závěr - Data Warehouse vs Hadoop

Nyní víme o Data Warehouse i Hadoopu, vraťme se a prozkoumáme otázku, kterou jsme položili na začátku tohoto článku Data Warehouse a Hadoop -

1) Pokud máte velká data, potřebujete datový sklad?

Odpověď - pokud vaše organizace potřebuje spolehlivá, uvěřitelná a dostupná data, potřebujete datový sklad.

2) Nahradí Hadoop datový sklad?

Odpověď - Porovnání datového skladu s Hadoopem je jako porovnávání jablek a pomerančů. Oba Data Warehouse a Hadoop mají své vlastní výhody v různých scénářích použití. V některých případech jsme stále závislí na tradičních technikách datového skladu, ale s časovými změnami se více zaměřujeme na Hadoop Framework, který řeší problémy s velkými daty.

3) Je to smrt tradiční éry Data Warehouse?

Odpověď - Jak vidíte, nejedná se o jednoduchou otázku, a proto se k jednoduché odpovědi nehodí. Je pravda, že velká data změní v příštích několika letech tradiční přístup k datovému skladování, ale nezastarají koncepty a praxi datového skladování.

Doporučený článek

Toto byl užitečný průvodce pro Data Warehouse vs Hadoop, kde jsme diskutovali o jejich významu, porovnání hlava-hlava, rozdíl mezi klíčem a závěr. Další informace naleznete také v následujícím článku -

  1. Hadoop vs Splunk - Zjistěte 7 nejlepších rozdílů
  2. Hadoop vs Elasticsearch - Který z nich je užitečnější
  3. Big Data vs Data Warehouse - Zjistěte nejlepší rozdíly
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios