Rozdíly mezi datovým skladem a Hadoopem
V každém desetiletí zažívá IT průmysl zásadní inovaci, která otřese celým IT průmyslem. V posledních letech udělal Apache Hadoop to samé tím, že do datových center vložil novou infrastrukturu
Tím, že programátor Hadoop dává možnost paralelního zpracování na takovém exponenciálním nárůstu adopce a jeho ekosystém se rozšiřuje v hloubce i šíři, je přirozené se ptát, zda Hadoop's nahradí tradiční datový sklad.
Podívejme se, co řekl Alasdair Anderson (výkonný viceprezident společnosti Nordea) na summitu v Hadoopu o tomto žhavém tématu ve městě.
"Právě teď mezi EDW a Hadoopem neexistuje žádný vztah - budou se doplňovat." Nejde o ripování a nahrazování: nebudeme se zbavovat RDBMS nebo MPP, ale místo toho používáme správný nástroj pro správnou práci - a to bude velmi ovlivněno cenou. “
Kdykoli začne tato zajímavá diskuse, napadne nás mnoho otázek jako:
1) Pokud máte velká data, potřebujete datový sklad?
2) Nahradí Hadoop datový sklad?
3) Je to smrt tradiční éry Data Warehouse?
Abychom mohli znát odpovědi na všechny tyto otázky, musíme se podívat do širšího kontextu tohoto obrázku.
1. Co je to Hadoop?
Kdo neslyšel o Big Data v poslední době? Se stovkami terabajtů dat generovaných každý den z různých zdrojů je jasné, že dnešní moderní svět je svět velkých dat
Když začnete mluvit o velkých datech, dříve nebo později začnete diskutovat o nejžhavějším tématu světa velkých dat: Hadoop - ale co přesně to je?
Hadoop je open-source programovací rámec založený na Javě, který podporuje zpracování a ukládání extrémně velkých datových sad v distribuovaném výpočetním prostředí.
4 moduly Hadoop -
Hadoop se skládá ze 4 modulů -
- Distribuovaný systém souborů
Distribuovaný systém souborů umožňuje ukládat data ve snadno přístupném formátu na velké množství propojených úložných zařízení.
- Mapa Reduce
Map Reduce je kombinací dvou operací - čtení dat z databáze a jejich uvedení do formátu vhodného pro analýzu (mapu) a provádění matematických operací (snížení).
- Hadoop obyčejný
Hadoop Common poskytuje nástroje potřebné pro data uložená v HDFS (Hadoop Distributed File System)
- PŘÍZE
YARN spravuje zdroje systémů ukládajících data a provádí analýzu.
2. Co je to datový sklad?
Datový sklad je relační databáze, která je určena pro data dotazů a analýz. Obvykle obsahuje historická data odvozená z různých zdrojů.
Prostředí datového skladu zahrnuje řešení ETL, online analytické zpracování (OLAP), nástroje pro analýzu klientů a další aplikace, které řídí proces analýzy dat a jejich poskytování podnikovým uživatelům.
Shrňme, co je datový sklad -
-
Předmět-orientovaný
Datový sklad lze použít k analýze konkrétní oblasti, jako je prodej, finance a zásoby. Každá oblast předmětu obsahuje podrobné údaje.
-
Integrovaný
Datový sklad integruje data z více zdrojů dat. Například data jsou ve stejném formátu, kódy muž / žena jsou konzistentní. V datovém skladu bude existovat pouze jediný způsob identifikace produktu a používají stejný zákaznický záznam, nikoli kopie
-
Non-volatile
Data jsou uložena v datovém skladu nezměněna a nezmění se. Historická data v datovém skladu by se tedy nikdy neměla měnit.
-
Časová varianta
z datového skladu lze načíst data od 3 měsíců, 6 měsíců, 12 měsíců nebo i starších dat.
-
Není virtuální
Datový sklad je fyzické, trvalé úložiště.
Datový sklad vs Hadoop (infografika)
Níže je prvních 6 srovnání mezi Data Warehouse vs Hadoop
Datový sklad vs Hadoop - Který z nich použít?
- Pokud máte čistá, konzistentní a vysoce kvalitní data, měli byste jít do Data Warehouse, protože Hadoop v některých svých řešeních nemá kvalitu dat.
- Pokud máte nezpracovaná nestrukturovaná data, měli byste jít na Hadoop, protože Hadoop dobře pracuje s nestrukturovanými / nezpracovanými daty, ale Data Warehouse pracuje pouze se strukturovanými daty.
- V případě zpráv s nízkou latencí a interaktivních zpráv byste měli jít do datového skladu
- Pro OLTP / Real-time / Point Queries byste měli jít do Data Warehouse, protože Hadoop dobře pracuje s dávkovými daty.
- U datových sad s velkým objemem byste měli jít na Hadoop, protože Hadoop je navržen tak, aby řešil velké datové problémy.
Porovnávací tabulka Head to Head mezi datovým skladem vs Hadoop
Níže je uveden seznam bodů, které popisují srovnání mezi datovým skladem a Hadoopem
Základ pro srovnání | Datový sklad | Hadoop |
Data | V datovém skladu analyzujeme strukturovaná a zpracovaná data | V Hadoopu můžeme zpracovat jakýkoli druh dat, včetně strukturovaných / nestrukturovaných / polostrukturovaných a nezpracovaných |
zpracovává se | Jeho zpracování je založeno na konceptech schématu při zápisu | Jeho zpracování je založeno na konceptech typu on-on-read |
Úložný prostor | Vhodné pro data s malým objemem a je to příliš drahé pro velké objemy dat | Funguje dobře s velkými datovými soubory, které mají obrovský objem, rychlost a rozmanitost |
hbitost | Je méně pohyblivý a má pevnou konfiguraci | Je vysoce pohyblivý, konfigurujte a podle potřeby překonfigurujte |
Bezpečnostní | Technologie datových skladů existují již desetiletí. Z hlediska bezpečnosti se tedy můžeme spolehnout na Data Warehouse | Zatímco technologie Hadoop jsou ve srovnání s datovým skladem relativně nové, zabezpečení je zde velkým problémem |
Uživatelé | Obchodní profesionálové obvykle používají datový sklad | Hadoop je docela slavný v oblasti datové vědy a datového inženýrství |
Závěr - Data Warehouse vs Hadoop
Nyní víme o Data Warehouse i Hadoopu, vraťme se a prozkoumáme otázku, kterou jsme položili na začátku tohoto článku Data Warehouse a Hadoop -
1) Pokud máte velká data, potřebujete datový sklad?
Odpověď - pokud vaše organizace potřebuje spolehlivá, uvěřitelná a dostupná data, potřebujete datový sklad.
2) Nahradí Hadoop datový sklad?
Odpověď - Porovnání datového skladu s Hadoopem je jako porovnávání jablek a pomerančů. Oba Data Warehouse a Hadoop mají své vlastní výhody v různých scénářích použití. V některých případech jsme stále závislí na tradičních technikách datového skladu, ale s časovými změnami se více zaměřujeme na Hadoop Framework, který řeší problémy s velkými daty.
3) Je to smrt tradiční éry Data Warehouse?
Odpověď - Jak vidíte, nejedná se o jednoduchou otázku, a proto se k jednoduché odpovědi nehodí. Je pravda, že velká data změní v příštích několika letech tradiční přístup k datovému skladování, ale nezastarají koncepty a praxi datového skladování.
Doporučený článek
Toto byl užitečný průvodce pro Data Warehouse vs Hadoop, kde jsme diskutovali o jejich významu, porovnání hlava-hlava, rozdíl mezi klíčem a závěr. Další informace naleznete také v následujícím článku -
- Hadoop vs Splunk - Zjistěte 7 nejlepších rozdílů
- Hadoop vs Elasticsearch - Který z nich je užitečnější
- Big Data vs Data Warehouse - Zjistěte nejlepší rozdíly
- Business Intelligence vs Data Warehouse
- Splunk vs Nagios