Úvod do ekosystému Hadoop

Apache Hadoop je systém s otevřeným zdrojovým kódem, který spolehlivě ukládá a zpracovává spoustu informací na mnoha komoditních počítačích. Hadoop byl poprvé napsán v novinách a publikován v říjnu 2013 jako „Google File System“. Doug Cutting, který v té době pracoval v Yahoo, představil jméno jako ekosystém Hadoop na základě jména slona hračky jeho syna. Pokud vezmeme v úvahu hlavní jádro Apache Hadoop, pak za prvé se může jednat o úložnou část, která je známá jako Hadoop Distributed File System (HDFS), a za druhé část zpracování, která se nazývá modul Mapování snižování programování. Hadoop ve skutečnosti rozdělí jeden obrovský soubor a uloží je do několika uzlů v klastru.

Koncept ekosystému Hadoop

Framework Apache Hadoop drží hlavně moduly:

  1. Hadoop Common: obsahuje všechny knihovny a nástroje potřebné pro používání modulu Hadoop.
  2. Distribuovaný systém souborů Hadoop (HDFS): Je to jeden z distribuovaných systémů souborů, který pomáhá ukládat obrovská data do více nebo komoditních strojů. Také poskytují velkou utilitu v případě šířky pásma, obvykle poskytuje velmi vysokou šířku pásma v typu agregátu na clusteru.
  3. Hadoop Yarn: Zavedena v roce 2012. Je zavedena hlavně pro správu zdrojů na všech systémech v komoditě i v klastru. Na základě schopností zdrojů distribuovala nebo naplánovala aplikaci uživatele podle požadavku.
  4. Hadoop MapReduce: Pomáhá hlavně zpracovávat data ve velkém měřítku pomocí metodiky programování zmenšení map.

Apache Hadoop vždy pomáhá při snižování nákladů na IT, pokud jde o inteligentní zpracování a ukládání obrovských dat. Protože Apache Hadoop je otevřený zdroj a hardware je velmi běžně dostupný, vždy nám pomáhá při správném snižování nákladů na IT.

Open Source Software + Commodity Hardware = Snížení nákladů na IT

Například, pokud se chystáme zvážit denní příjem 942787 souborů a adresářů, které vyžadují 4077936 bloků, celkem 5020723 bloků. Pokud jsme tedy nakonfigurovali alespoň 1, 46 PB kapacity, pak pro manipulaci nad zatížením bude distribuovaný souborový systém používat 1, 09 PB, což znamená téměř 74, 85% z celkové nakonfigurované kapacity, zatímco uvažujeme 178 živých uzlů a 24 mrtvých uzlů.

Ekosystém Hadoop je určen především pro ukládání a zpracování velkých dat, která mají obvykle některé klíčové vlastnosti, jako je níže:

  • Objem

Svazek představuje velikost dat, která byla skutečně uložena a vygenerována. V závislosti na velikosti dat, která byla stanovena, je datová sada velká nebo ne.

  • Odrůda

Odrůda znamená povahu, strukturu a typ použitých dat.

  • Rychlost

Rychlost představuje rychlost dat, která byla uložena a vygenerována v konkrétním vývojovém procesu.

  • Pravdivost

Věrnost znamená kvalitu zachycených dat a také pomáhá analýze dat k dosažení zamýšleného cíle.

HDFS je určen především k ukládání velmi velkého množství informací (terabajtů nebo petabytů) přes velké množství strojů v klastru. Vždy udržuje některé běžné vlastnosti, jako je spolehlivost dat, běží na komoditním hardwaru, používá bloky k uložení souboru nebo jeho části, využívá model „write once read many“.

HDFS následující architektury s konceptem Name Node a Data Node.

Odpovědnost Name Node (Master):

- spravuje obor názvů systému souborů

- udržuje konfiguraci clusteru

- Odpovědný za správu replikace

Odpovědnost datového uzlu (slave):

- Ukládejte data do místního systému souborů

- Pravidelně podávejte zprávy zpět do jmenového uzlu pomocí prezenčního signálu

Operace zápisu HDFS:

Hadoop pro zápis jakéhokoli velkého souboru následuje níže uvedené kroky:

  1. Vytvořte soubor a aktualizujte bitovou kopii po získání jednoho požadavku na zápis souboru od libovolného klienta HDFS.
  2. Získat informace o umístění bloku nebo datových uzlech z uzlu názvu.
  3. Paket zapisujte jednotlivým datovým uzlem paralelně.
  4. Potvrďte dokončení nebo přijetí zápisu paketu a odešlete zpět informace klientovi Hadoop.

Potrubí replikace HDFS bloku:

  1. Klient načte seznam Datanodes z Namenode, který bude hostit repliku tohoto bloku
  2. Klient poté propláchne datový blok do prvního Datanode
  3. První Datanode přijme blok, zapíše jej a přenese do dalšího datového uzlu v potrubí
  4. Po zapsání všech replik se klient přesune na další blok v souboru

Tolerance poruchy HDFS:

Jeden datový uzel byl náhle vypnut, v tomto případě má HDFS schopnost automaticky řídit tento scénář. Za prvé, všechny uzly jmen jsou vždy přijímány jeden prezenční signál z každého datového uzlu, pokud nějakým způsobem ztratil jeden prezenční signál z jednoho datového uzlu, vzhledem ke stejnému datovému uzlu jako dolů, okamžitě podnikněte kroky k automatické replikaci všech bloků na zbývajících uzlech, aby byla uspokojena replikace faktor.

Pokud uzel názvu detekuje jeden nový datový uzel dostupný v klastru, okamžitě znovu vyvažuje všechny bloky včetně přidaného datového uzlu.

Nyní nějakým způsobem došlo ke ztrátě nebo selhání uzlu uzlu, v tomto případě také záložní uzel, který drží jeden obraz FS uzlu, okamžitě přehraje veškerou operaci FS a podle potřeby uzel uzlu. V takovém případě je však nutný ruční zásah a celý rámec ekosystému Hadoop bude několikrát nefunkční, aby znovu vytvořil nový uzel s názvem. V tomto případě může být uzel s názvem jediný bod selhání, aby se zabránilo tomuto scénáři Federace HDFS zavádějící více clusterů nastavených na uzel s názvem a ZooKeeper může podle požadavku okamžitě spravovat jeden alternativní uzel s názvem.

Příklady ekosystému Hadoop

Úplný příklad ekosystému Hadoop lze správně vysvětlit na následujícím obrázku:

Data mohou pocházet z jakéhokoli zdroje, jako je datový sklad, úložiště spravovaných dokumentů, sdílení souborů, normální databáze RDMS nebo cloud nebo externí zdroje. Všechna tato data přicházela na HDFS strukturovanou nebo nestrukturovanou nebo polostrukturovanou cestou. HDFS ukládají všechna tato data distribuovaným způsobem, což znamená, že je velmi inteligentně ukládat do distribuovaného komoditního systému.

Závěr

Ekosystém Hadoop byl navržen především pro ukládání a zpracování obrovských dat, která měla představovat některý ze dvou faktorů mezi objemem, rychlostí a rozmanitostí. Ukládá data v distribuovaném systému zpracování, který běží na komoditním hardwaru. Vzhledem k úplnému ekosystému Hadoop distribuuje HDFS datové bloky a Map Reduce poskytuje programovací rámec pro čtení dat ze souboru uloženého v HDFS.

Doporučené články:

Toto byl průvodce Ekosystémem Hadoop. Zde jsme diskutovali základní koncept o ekosystému Hadoop, jeho architektuře, operacích HDFS, příkladech, odolnosti proti chybám HDFS atd. Další informace naleznete také v následujících článcích -

  1. Použití Hadoopu ve skutečném světě
  2. Hadoop vs Splunk
  3. Kariéra v Hadoopu
  4. Hadoop vs. výkon SQL

Kategorie: