MapReduce vs Apache Spark-20 Užitečné srovnání, které je třeba se naučit

Rozdíly mezi MapReduce a Apache Spark

Apache Hadoop je softwarový rámec s otevřeným zdrojovým kódem navržený tak, aby se rozšířil od jednotlivých serverů po tisíce strojů a spouštěl aplikace na klastrech komoditního hardwaru. Framework Apache Hadoop je rozdělen do dvou vrstev.

Distribuovaný systém souborů Hadoop (HDFS)
Vrstva zpracování (MapReduce)

Úložná vrstva Hadoop tj. HDFS je zodpovědná za ukládání dat, zatímco MapReduce je zodpovědný za zpracování dat v Hadoop Clusteru. MapReduce je toto programovací paradigma, které umožňuje masivní škálovatelnost přes stovky nebo tisíce serverů v klastru Hadoop. MapReduce je technika zpracování a programový model pro distribuované výpočty založené na programovacím jazyce Java. MapReduce je výkonný rámec pro zpracování velkých, distribuovaných sad strukturovaných nebo nestrukturovaných dat na clusteru Hadoop uloženém v systému Hadoop Distributed File System (HDFS). Výkonné vlastnosti MapReduce jsou jeho škálovatelnost.

Apache Spark je technologická platforma pro rychlé zpracování blesků a clusterů, navržená pro rychlý výpočet velkého rozsahu zpracování dat. Apache Spark je distribuovaný procesor zpracování, ale nepřichází s vestavěným správcem klastrových prostředků a distribuovaným úložným systémem. Musíte připojit správce clusteru a úložný systém podle vašeho výběru. Apache Spark se skládá z jádra Spark a sady knihoven podobných knihovnám dostupným pro Hadoop. Jádrem je distribuovaný spouštěcí modul a sada jazyků. Apache Spark podporuje jazyky jako Java, Scala, Python a R pro vývoj distribuovaných aplikací. Další knihovny jsou postaveny na jádru Spark, které umožňují pracovní vytížení využívající streamování, SQL, graf a strojové učení. Apache Spark je stroj pro zpracování dat pro dávkové a streamingové režimy, obsahující dotazy SQL, zpracování grafů a strojové učení. Apache Spark může pracovat nezávisle a také na Hadoop YARN Cluster Manager, a tak může číst stávající Hadoop data.

Můžete vybrat Apache YARN nebo Mesos pro správce clusteru pro Apache Spark.
Můžete si vybrat Hadoop Distributed File System (HDFS), cloudové úložiště Google, Amazon S3, Microsoft Azure pro správce zdrojů pro Apache Spark.

Srovnání mezi hlavami mezi MapReduce a Apache Spark (infografika)

Níže je 20 nejlepších srovnání mezi MapReduce a Apache Spark

Klíčový rozdíl mezi MapReduce a Apache Spark

MapReduce je výhradně na disku, zatímco Apache Spark využívá paměť a může ke zpracování použít disk.
MapReduce a Apache Spark mají podobnou kompatibilitu, pokud jde o typy dat a zdroje dat.
Primární rozdíl mezi MapReduce a Spark spočívá v tom, že MapReduce používá trvalé úložiště a Spark používá Resilient Distributed Datasets.
Hadoop MapReduce je určen pro data, která se nevejdou do paměti, zatímco Apache Spark má lepší výkon pro data, která se vejdou do paměti, zejména na vyhrazených klastrech.
Hadoop MapReduce může být ekonomickou alternativou kvůli Hadoop jako službě a Apache Spark je nákladově efektivnější díky vysoké dostupnosti paměti
Apache Spark a Hadoop MapReduce jsou odolné proti selhání, ale ve srovnání s Hadoop MapReduce je odolnější proti selhání než Spark.
Hadoop MapReduce vyžaduje základní programovací dovednosti java, zatímco programování v Apache Spark je jednodušší, protože má interaktivní režim.
Spark je schopen provádět úlohy dávkového zpracování desetkrát až stokrát rychleji než MapReduce. Přestože jsou oba nástroje použity pro zpracování velkých dat.

Kdy použít MapReduce:

Lineární zpracování velkého datového souboru
Není potřeba žádné přechodné řešení

Kdy použít Apache Spark:

Rychlé a interaktivní zpracování dat
Připojování datových sad
Zpracování grafů
Iterativní práce
Zpracování v reálném čase
Strojové učení

Srovnávací tabulka MapReduce vs. Apache Spark

	MapReduce	Apache Spark
Zpracování dat	Pouze pro dávkové zpracování	Dávkové zpracování a zpracování dat v reálném čase
Rychlost zpracování	Pomalejší než Apache Spark, protože pokud je latence I / O disku	100x rychlejší v paměti a 10x rychlejší při běhu na disku
Kategorie	Engine zpracování dat	Nástroj pro analýzu dat
Náklady	Snížení nákladů oproti porovnání s Apache Spark	Více nákladnější kvůli velkému množství paměti RAM
Škálovatelnost	Oba jsou škálovatelné omezeny na 1000 uzlů v jednom klastru	Oba jsou škálovatelné omezeny na 1000 uzlů v jednom klastru
Strojové učení	MapReduce je kompatibilnější s Apache Mahout při integraci s Machine Learning	Apache Spark má zabudovaná rozhraní API pro strojové učení
Kompatibilita	Je kompatibilní se všemi zdroji dat a formáty souborů	Apache Spark se může integrovat do všech zdrojů dat a formátů souborů podporovaných klastrem Hadoop
Bezpečnostní	MapReduce framework je bezpečnější ve srovnání s Apache Spark	Bezpečnostní funkce v Apache Spark se vyvíjí a dozrává
Plánovač	Závisí na externím plánovači	Apache Spark má svůj vlastní plánovač
Odolnost proti chybám	Používá replikaci pro toleranci chyby	Apache Spark používá RDD a další modely ukládání dat pro odolnost proti poruchám
Snadnost použití	MapReduce je trochu složité porovnání Apache Spark kvůli JAVA API	Apache Spark se snadněji používá díky bohatým API
Duplicitní odstranění	MapReduce tyto funkce nepodporují	Apache Spark zpracovává každou nahrávku přesně jednou, takže eliminuje duplicitu.
Jazyková podpora	Primární jazyk je Java, ale podporovány jsou i jazyky jako C, C ++, Ruby, Python, Perl, Groovy	Apache Spark podporuje Java, Scala, Python a R
Latence	Velmi vysoká latence	Mnohem rychlejší porovnání MapReduce Framework
Složitost	Je obtížné psát a ladit kódy	Snadné psaní a ladění
Apache Community	Open Source Framework pro zpracování dat	Open Source Framework pro zpracování dat vyšší rychlostí
Kódování	Více řádků kódu	Menší řádky kódu
Interaktivní režim	Není interaktivní	Interaktivní
Infrastruktura	Komoditní hardware	Hardware střední a vysoké úrovně
SQL	Podporuje prostřednictvím jazyka Hive Query Language	Podporuje Spark SQL

Závěr - MapReduce vs. Apache Spark

MapReduce a Apache Spark jsou nejdůležitějším nástrojem pro zpracování velkých dat. Hlavní výhodou MapReduce je to, že je snadné škálovat zpracování dat na více výpočetních uzlech, zatímco Apache Spark nabízí vysokorychlostní výpočetní techniku, obratnost a relativní snadnost použití jsou dokonalým doplňkem MapReduce. MapReduce a Apache Spark spolu mají symbiotický vztah. Hadoop poskytuje funkce, které Spark nemá, například distribuovaný systém souborů a Spark poskytuje zpracování v paměti v reálném čase pro ty datové sady, které to vyžadují. MapReduce je výpočet na disku, zatímco Apache Spark je výpočet na bázi RAM. MapReduce a Apache Spark společně jsou výkonným nástrojem pro zpracování velkých dat a zvyšují robustnost clusteru Hadoop.

Doporučené články

Toto byl průvodce MapReduce vs. Apache Spark, jejich význam, porovnání hlava-hlava, hlavní rozdíly, srovnávací tabulka a závěr. Další informace naleznete také v následujících článcích -