Rozdíl mezi Hadoop a MapReduce

Kořeny Hadoopu sahají až do roku 2002, kdy Dough Cutting pracoval na projektu s otevřeným zdrojovým kódem s názvem Nutch (který byl používán k indexování webových stránek a k vyhledávání indexovaných webových stránek, to samé, co dělá Google). Čelil problémům se škálovatelností jak z hlediska úložiště, tak z hlediska výpočetní techniky. V roce 2003 společnost Google zveřejnila systém souborů GFS (google file system) a v roce 2004 Nutch vytvořil NDFS (distribuovaný systém souborů Nutch). Poté, co společnost Google oznámila MapReduce jako svůj výpočetní mozek za svými třídicími algoritmy, mohl těsto spustit Nutch na NDFS a použít MapReduce v roce 2005 a v roce 2006 se narodil Hadoop.

Hadoop a MapReduce! Hadoop je eko-systém projektů s otevřeným zdrojovým kódem, jako jsou Hadoop Common, Hadoop distribuovaný souborový systém (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop jako takový je open source framework pro ukládání a zpracování obrovských datových sad. Ukládání provádí HDFS a zpracování zajišťuje MapReduce. MapReduce, na druhé straně, je programovací model, který vám umožní zpracovat obrovská data uložená v Hadoop.let nám rozumí Hadoop a MapReduce podrobně v tomto příspěvku.

Srovnání hlava-hlava mezi Hadoop Vs MapReduce (Infographics)

Níže je 5 nejlepších srovnání mezi Hadoopem a MapReduce

Klíčové rozdíly mezi Hadoopem a MapReduce

Následuje rozdíl mezi Hadoopem a MapReduce

  • Pokud chceme rozlišit Hadoop a MapReduce z hlediska laiků, můžeme říci, že Hadoop je jako auto, kde máte vše, co je potřeba k ujeté vzdálenosti, ale MapReduce je jako motor auta, takže bez automobilu může motor ' • existuje, ale vnější část vozu se může změnit (jiné DFS (distribuované systémy souborů)).
  • Základní myšlenka Hadoopu spočívá v tom, že data musí být spolehlivá a škálovatelná, spolehlivá, protože v případě katastrofy nebo selhání sítě musí být data neustále k dispozici, čehož lze dosáhnout pomocí rámce Hadoop pomocí Name Nodes a Data Nodes.
  • Některé základní myšlenky datových uzlů a jmenných uzlů

  • Základní myšlenkou architektury datového uzlu a jmenného uzlu je architektura master / slave, kde jeden ukládá umístění dat (název uzlu) a druhý ukládá samotná data (datový uzel). Data jsou rozdělena na kousky 64 MB a uložena do datových bloků a jejich registr je udržován v uzlu Name. Data jsou ve výchozím nastavení replikována třikrát pro spolehlivost. Hovoříme-li o škálovatelnosti, lze hardware na cestách zvýšit, což pomáhá zvýšit úložiště a zvýšit škálovatelnost systému.
  • Nyní přicházejí do MapReduce tři fáze
    1. Fáze mapy
    2. Fázová fáze
    3. Snížení fáze

Vezměme si příklad, abychom to lépe pochopili. Program MapReduce, který je programovacím rámcem, má také program hello world, ale v MapReduce je známý jako program pro počítání slov.

Program Počet slov nám dává páry klíč-hodnota slova a jeho frekvenci v odstavci / článku nebo v jakémkoli zdroji dat. Abychom to snadno pochopili, vezměme níže jako příklad data.

Jak vidíme, v datovém souboru máme tři slova autobus, auto a vlak. Sloupec Input obsahuje data tak, jak máme v datové sadě, sloupec Output obsahuje data v mezistupni, kde dojde k promíchání.

Zde bereme rozdělovač jako čárku (, ) pro rozdělení slov. Rozdělovač může být čárka nebo mezera nebo nový řádek atd.

VstupSada datcaR, CAR, auto, BUS, VLAK, autobus, vlak, autobus, VLAK, BUS, buS, Auto, autobus, auto, vlak, auto, autobus, auto
VýstupPřevést na jinou sadu dat

(Klíč, hodnota)

(Autobus, 1), (Auto, 1), (Autobus, 1), (Auto, 1), (vlak, 1),

(auto, 1), (autobus, 1), (auto, 1), (vlak, 1), (autobus, 1),

(VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(auto, 1), (BUS, 1), (VLAK, 1)

A výstup výše uvedené mezistupně je dán reduktoru a níže je konečný výstup programu.

Vstup

(výstup funkce Map)

Sada n-tic(Autobus, 1), (Auto, 1), (Autobus, 1), (Auto, 1), (vlak, 1),

(auto, 1), (autobus, 1), (auto, 1), (vlak, 1), (autobus, 1),

(VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(auto, 1), (BUS, 1), (VLAK, 1)

VýstupPřevádí na menší sadu n-tic(BUS, 7),

(CAR, 7),

(VLAK, 4)

  • Jedním z klíčových rozdílů Hadoopu od ostatních velkých rámců zpracování dat je to, že Hadoop posílá kód (MapReduce code) do klastrů, kde jsou data uložena, spíše než posílání dat do kódu, protože datové sady budou v TB nebo někdy v PB bude to nudný úkol.

Srovnávací tabulka Hadoop vs MapReduce

Základ pro srovnáníHadoopMapReduce

Význam

Jméno „Hadoop“ bylo jméno slona hračky syna Douga Cuttinga. Tento projekt nazval „Hadoop“, protože bylo snadné jej vyslovit.Název „MapReduce“ vznikl podle samotné funkce mapování a snižování párů klíč-hodnota.

Pojem

Apache Hadoop je eko-systém, který poskytuje prostředí, které je spolehlivé, škálovatelné a připravené pro distribuované výpočty.MapReduce je submodulem tohoto projektu, který je programovacím modelem a používá se ke zpracování obrovských datových sad, které sedí na HDFS (distribuovaný systém souborů Hadoop).

Předpoklady

Hadoop běží na implementaci HDFS (Hadoop Distributed File System)MapReduce může běžet na HDFS / GFS / NDFS nebo na jakémkoli jiném distribuovaném systému souborů, například MapR-FS

Jazyk

Hadoop je kolekce všech modulů, a proto může zahrnovat i jiné programovací / skriptovací jazykyMapReduce je v podstatě psán v programovacím jazyce Java

Rámec

Hadoop má nejen úložný rámec, který ukládá data, ale také vytváří uzly názvů a datové uzly, ale má i další rámce, které zahrnují samotný MapReduce.MapReduce je programovací rámec, který pro třídění / zpracování dat používá klíčové mapování hodnot

Níže uvedený obrázek pomůže s rozlišením MapReduce od Hadoop.

MapReduce Framework

  • Jak vidíme z výše uvedeného obrázku, MapReduce je distribuovaný rámec zpracování, zatímco Hadoop je kolekce všech rámců.

Závěr - Hadoop vs MapReduce

Hadoop je otevřený zdroj získal popularitu, protože byl volně použitelný a programátoři mohou změnit kód podle svých potřeb. Ekologický systém Hadoop byl v minulých letech vyvíjen nepřetržitě, aby byl ekologický systém co možná nejmenší.

S neustále se měnícími potřebami světa se technologie rychle mění a je obtížné tyto změny sledovat. Data, která jsou generována za měsíc, se při čtení tohoto článku zdvojnásobí / ztrojnásobí a potřeba rychlejšího zpracování datových sad vedla k mnoha dalším programovacím rámcům, jako jsou MapReduce 2, Spark atd.

Doporučené články

Toto byl průvodce Hadoop vs MapReduce, jejich význam, srovnání hlava-hlava, hlavní rozdíly, srovnávací tabulka a závěr. Další informace naleznete také v následujících článcích -

  1. Rozdíl mezi Hadoopem a Redshiftem
  2. Zjistěte 6 nejlepších rozdílů mezi Apache Hadoop a Apache Storm
  3. Porovnání mezi Hadoop Vs SQL
  4. Vědět o MapReduce vs Spark
  5. Hadoop vs Spark: Funkce
  6. Laravel vs Codeigniter: Funkce

Kategorie: