Úvod do alternativ Hadoop

Apache Hadoop je monstrózní framework, který používá několik dalších komponent, jako jsou HDFS, Hive, Spark, YARN a Zookeeper. Používá se ke zpracování a analýze dat získaných z interních nebo externích zdrojů. Může se škálovat od několika strojů nebo serverů po tisíce. Existuje mnoho vestavěných funkcí knihovny, které mohou detekovat a řešit poruchy.

Komponenty Hadoop

1) Distribuovaný systém souborů Hadoop (HDFS):

Toto je úložiště dat v Hadoopu. Funguje na principu distribuovaných dat, kde jsou obrovské soubory dat rozděleny na malé části a ukládány na více počítačích v klastru.

2) MapReduce:

Je to programovací model, který provádí analýzy paralelně na datech, která se nacházejí v různých uzlech klastru.

3) Úl:

Rámec Open-Source, který se používá k dotazování na strukturovaná data pomocí jazyka Hive-Query. Funkce indexování se používá k urychlení procesu dotazování.

4) Ambari:

Platforma pro sledování stavu clusteru a automatizaci operací. Má jednoduché webové uživatelské rozhraní a lze jej snadno nainstalovat a nakonfigurovat.

Seznam alternativ Hadoop

Níže jsou uvedeny různé varianty Hadoop, které jsou následující:

Dávkové zpracování

Zde se zpracování provádí pouze na archivních datech. Například finanční audity a sčítání lidu jsou analýzou starých dat, která poskytuje lepší předpověď budoucích výsledků. Tato data mohou obsahovat miliardy řádků a sloupců. Dávkové zpracování je nejvhodnější pro zpracování velkých dat bez nutnosti analýzy v reálném čase.

Zpracování v reálném čase

Je také znám jako Stream-Processing. Zde jsou data zpracovávána čas od času, protože jsou generována, aby poskytovala rychlý přehled o pravděpodobných výsledcích. Detekce zemětřesení a akciové trhy jsou nejlepšími příklady, kde je nutná analýza v reálném čase.

Apache Spark

Spark je framework, který se používá spolu s Hadoopem ke zpracování dávkových dat nebo dat v reálném čase na seskupených strojích. Může být také použit jako samostatný, načítání a ukládání dat na serverech třetích stran bez použití HDFS. Jedná se o produkt s otevřeným zdrojovým kódem. Poskytuje API, která jsou psána pomocí SCALA, R nebo Python, která podporuje obecné zpracování. Ke zpracování strukturovaných dat lze použít Spark-SQL. Spark Streaming provádí tolik potřebné analýzy v reálném čase. Spark poskytuje podporu strojového učení pomocí MLIB. Nakonec lze zpracovaná data zobrazit pomocí Graphix.

Nejvýznamnější vlastností Spark je zpracování v paměti. Celé zpracování dat probíhá v paměti a ne na disku. Tato metoda šetří čas čtení a zápisu vstupu na disk a výstup z něj zpět. Spark je bleskový a je téměř 100x rychlejší než zpracování Hadoop. Celá funkce je definována a odeslána do kontextu Spark. Teprve poté začíná zpracování od nuly. Tato metoda se nazývá Lazy-Execution. Kafka, Flume se používají jako vstupy pro streamování dat. Strukturovaná nebo nestrukturovaná data mohou být používána Sparkem pro analýzu. Datové toky jsou svazkem dat pro daný časový interval v programu Spark Streaming. Jsou převedeny na šarže a odeslány do Spark Engine ke zpracování. Strukturovaná data jsou převedena do datových rámců před použitím Spark-SQL pro další analýzu.

Apache Storm

Apache Storm je také jednou z alternativ Hadoopu, která je nejvhodnější pro distribuovanou analytiku v reálném čase. Snadno se nastavuje, je uživatelsky přívětivý a neztrácí data. Bouře má velmi vysoký výpočetní výkon a poskytuje nízkou latenci (obvykle v sekundách) ve srovnání s Hadoopem.

Podrobněji se podíváme na pracovní postup Stormu:

  • Topologie bouře (podobná DAG, ale plán fyzického provedení) je předložena Nimbusu (hlavní uzel).
  • Úkoly a pořadí, v jakém by se měly provádět, jsou předkládány Nimbusu.
  • Nimbus rovnoměrně distribuuje dostupné úkoly supervizorům (Spouts) a tento proces provádí Worker Nodes (Bolts).
  • Zdraví hubic a šroubů je průběžně sledováno prostřednictvím srdečních rytmů. Jakmile supervisor zemře, Nimbus přidělí úlohu jinému uzlu.
  • Pokud Nimbus zemře, monitorovací nástroje jej automaticky restartují. Mezitím supervizoři pokračují v plnění svých úkolů, které byly dříve zadány.
  • Jakmile je Nimbus restartován, pokračuje v práci od místa, kde se zastavil. Proto nedochází ke ztrátě dat a každé údaje prochází topologií alespoň jednou.
  • Topologie pokračuje, dokud není Nimbus ukončen nebo násilně vypnut.
  • Storm využívá Zookeeper ke sledování Nimbus a dalších uzlů dohledu.

Velké dotazy

Databáze se používají pro transakční zpracování. Manažeři vytvářejí zprávy a analyzují data z různých databází. Byly zavedeny datové sklady pro načítání dat z více databází v celé organizaci. Google vyvinul velký dotaz, který je datovým skladem spravovaným jeho vlastním já. Ke zpracování velmi složitých dotazů je třeba mít velmi výkonné servery a uzlové stroje, které mohou stát obrovské náklady. Zřízení infrastruktury může trvat až několik týdnů. Jakmile je dosažena maximální prahová hodnota, musí být zvýšena. K vyřešení těchto problémů poskytuje velký dotaz úložiště ve formě cloudu Google. Pokud je to nutné k provedení složitého dotazu během několika sekund, pracovní uzly se přizpůsobí velikosti datového centra. Platíte za to, co používáte, tj. Dotazování. Google se stará o zdroje a jejich údržbu a zabezpečení. Spuštění dotazů v běžných databázích může trvat několik minut až hodin. Velký dotaz zpracovává data mnohem rychleji a je vhodný zejména pro streamování dat, jako je online hraní a internet věcí (IoT). Rychlost zpracování je vysoká jako miliardy řádků za sekundu.

rychle

Dotaz Presto lze použít ke zkombinování dat z různých zdrojů v celé organizaci a jejich analýze. Data mohou být uložena v Úlu, RDBMS nebo Cassandra. Presto je nejvhodnější pro analytiky, kteří očekávají celou dotazovanou zprávu během několika minut. Architektura je obdobou klasického systému správy databází s využitím více uzlů v klastru. Byl vyvinut společností Facebook pro provádění analýz a nalezení poznatků z jejich interních dat, včetně jejich 300PB datového skladu. Na jejich data se spouští více než 30 000 dotazů, které denně skenují petabyte. Presto využívají i další přední společnosti jako Airbnb a Dropbox.

Doporučený článek

Toto byl průvodce Hadoop Alternatives. Zde diskutujeme komponenty Hadoop, dávkové zpracování a zpracování Hadoop alternativ v reálném čase. Další informace naleznete také v následujících článcích:

  1. Pracovní místa správce Hadoop
  2. Hadoop vs. výkon SQL
  3. Kariéra v Hadoopu
  4. Hadoop vs Spark
  5. Správce Hadoopu Dovednosti a kariérní cesta

Kategorie: