Hadoop Alternativy Komponenty A Nejlepší Alternativy Hadoop

Úvod do alternativ Hadoop

Apache Hadoop je monstrózní framework, který používá několik dalších komponent, jako jsou HDFS, Hive, Spark, YARN a Zookeeper. Používá se ke zpracování a analýze dat získaných z interních nebo externích zdrojů. Může se škálovat od několika strojů nebo serverů po tisíce. Existuje mnoho vestavěných funkcí knihovny, které mohou detekovat a řešit poruchy.

Komponenty Hadoop

1) Distribuovaný systém souborů Hadoop (HDFS):

Toto je úložiště dat v Hadoopu. Funguje na principu distribuovaných dat, kde jsou obrovské soubory dat rozděleny na malé části a ukládány na více počítačích v klastru.

2) MapReduce:

Je to programovací model, který provádí analýzy paralelně na datech, která se nacházejí v různých uzlech klastru.

3) Úl:

Rámec Open-Source, který se používá k dotazování na strukturovaná data pomocí jazyka Hive-Query. Funkce indexování se používá k urychlení procesu dotazování.

4) Ambari:

Platforma pro sledování stavu clusteru a automatizaci operací. Má jednoduché webové uživatelské rozhraní a lze jej snadno nainstalovat a nakonfigurovat.

Seznam alternativ Hadoop

Níže jsou uvedeny různé varianty Hadoop, které jsou následující:

Dávkové zpracování

Zde se zpracování provádí pouze na archivních datech. Například finanční audity a sčítání lidu jsou analýzou starých dat, která poskytuje lepší předpověď budoucích výsledků. Tato data mohou obsahovat miliardy řádků a sloupců. Dávkové zpracování je nejvhodnější pro zpracování velkých dat bez nutnosti analýzy v reálném čase.

Zpracování v reálném čase

Je také znám jako Stream-Processing. Zde jsou data zpracovávána čas od času, protože jsou generována, aby poskytovala rychlý přehled o pravděpodobných výsledcích. Detekce zemětřesení a akciové trhy jsou nejlepšími příklady, kde je nutná analýza v reálném čase.

Apache Spark

Spark je framework, který se používá spolu s Hadoopem ke zpracování dávkových dat nebo dat v reálném čase na seskupených strojích. Může být také použit jako samostatný, načítání a ukládání dat na serverech třetích stran bez použití HDFS. Jedná se o produkt s otevřeným zdrojovým kódem. Poskytuje API, která jsou psána pomocí SCALA, R nebo Python, která podporuje obecné zpracování. Ke zpracování strukturovaných dat lze použít Spark-SQL. Spark Streaming provádí tolik potřebné analýzy v reálném čase. Spark poskytuje podporu strojového učení pomocí MLIB. Nakonec lze zpracovaná data zobrazit pomocí Graphix.

Nejvýznamnější vlastností Spark je zpracování v paměti. Celé zpracování dat probíhá v paměti a ne na disku. Tato metoda šetří čas čtení a zápisu vstupu na disk a výstup z něj zpět. Spark je bleskový a je téměř 100x rychlejší než zpracování Hadoop. Celá funkce je definována a odeslána do kontextu Spark. Teprve poté začíná zpracování od nuly. Tato metoda se nazývá Lazy-Execution. Kafka, Flume se používají jako vstupy pro streamování dat. Strukturovaná nebo nestrukturovaná data mohou být používána Sparkem pro analýzu. Datové toky jsou svazkem dat pro daný časový interval v programu Spark Streaming. Jsou převedeny na šarže a odeslány do Spark Engine ke zpracování. Strukturovaná data jsou převedena do datových rámců před použitím Spark-SQL pro další analýzu.

Apache Storm

Apache Storm je také jednou z alternativ Hadoopu, která je nejvhodnější pro distribuovanou analytiku v reálném čase. Snadno se nastavuje, je uživatelsky přívětivý a neztrácí data. Bouře má velmi vysoký výpočetní výkon a poskytuje nízkou latenci (obvykle v sekundách) ve srovnání s Hadoopem.

Podrobněji se podíváme na pracovní postup Stormu:

Topologie bouře (podobná DAG, ale plán fyzického provedení) je předložena Nimbusu (hlavní uzel).
Úkoly a pořadí, v jakém by se měly provádět, jsou předkládány Nimbusu.
Nimbus rovnoměrně distribuuje dostupné úkoly supervizorům (Spouts) a tento proces provádí Worker Nodes (Bolts).
Zdraví hubic a šroubů je průběžně sledováno prostřednictvím srdečních rytmů. Jakmile supervisor zemře, Nimbus přidělí úlohu jinému uzlu.
Pokud Nimbus zemře, monitorovací nástroje jej automaticky restartují. Mezitím supervizoři pokračují v plnění svých úkolů, které byly dříve zadány.
Jakmile je Nimbus restartován, pokračuje v práci od místa, kde se zastavil. Proto nedochází ke ztrátě dat a každé údaje prochází topologií alespoň jednou.
Topologie pokračuje, dokud není Nimbus ukončen nebo násilně vypnut.
Storm využívá Zookeeper ke sledování Nimbus a dalších uzlů dohledu.

Velké dotazy

Databáze se používají pro transakční zpracování. Manažeři vytvářejí zprávy a analyzují data z různých databází. Byly zavedeny datové sklady pro načítání dat z více databází v celé organizaci. Google vyvinul velký dotaz, který je datovým skladem spravovaným jeho vlastním já. Ke zpracování velmi složitých dotazů je třeba mít velmi výkonné servery a uzlové stroje, které mohou stát obrovské náklady. Zřízení infrastruktury může trvat až několik týdnů. Jakmile je dosažena maximální prahová hodnota, musí být zvýšena. K vyřešení těchto problémů poskytuje velký dotaz úložiště ve formě cloudu Google. Pokud je to nutné k provedení složitého dotazu během několika sekund, pracovní uzly se přizpůsobí velikosti datového centra. Platíte za to, co používáte, tj. Dotazování. Google se stará o zdroje a jejich údržbu a zabezpečení. Spuštění dotazů v běžných databázích může trvat několik minut až hodin. Velký dotaz zpracovává data mnohem rychleji a je vhodný zejména pro streamování dat, jako je online hraní a internet věcí (IoT). Rychlost zpracování je vysoká jako miliardy řádků za sekundu.

rychle

Dotaz Presto lze použít ke zkombinování dat z různých zdrojů v celé organizaci a jejich analýze. Data mohou být uložena v Úlu, RDBMS nebo Cassandra. Presto je nejvhodnější pro analytiky, kteří očekávají celou dotazovanou zprávu během několika minut. Architektura je obdobou klasického systému správy databází s využitím více uzlů v klastru. Byl vyvinut společností Facebook pro provádění analýz a nalezení poznatků z jejich interních dat, včetně jejich 300PB datového skladu. Na jejich data se spouští více než 30 000 dotazů, které denně skenují petabyte. Presto využívají i další přední společnosti jako Airbnb a Dropbox.

Doporučený článek

Toto byl průvodce Hadoop Alternatives. Zde diskutujeme komponenty Hadoop, dávkové zpracování a zpracování Hadoop alternativ v reálném čase. Další informace naleznete také v následujících článcích:

Pracovní místa správce Hadoop
Hadoop vs. výkon SQL
Kariéra v Hadoopu
Hadoop vs Spark
Správce Hadoopu Dovednosti a kariérní cesta

Hadoop Alternativy Komponenty A Nejlepší Alternativy Hadoop

Obsah:

Úvod do alternativ Hadoop

Komponenty Hadoop

1) Distribuovaný systém souborů Hadoop (HDFS):

2) MapReduce:

3) Úl:

4) Ambari:

Seznam alternativ Hadoop

Dávkové zpracování

Zpracování v reálném čase

Apache Spark

Apache Storm

Velké dotazy

rychle

Doporučený článek

Top 10 dotazů pro vývojáře Android pro vývojáře (Aktualizováno na 2019)

Jak Android Device Manager Tracker najde váš ztracený telefon?

Android Developer vs Web Developer - 7 hlavních užitečných rozdílů

10 zajímavých věcí Zajímavá fakta o Androidu, které jste nevěděli

10 základních otázek a odpovědí na rozhovor s Androidem (Aktualizováno na 2019)

Jak zesvětlit a rozjasnit oči pomocí Photoshopu CC a CS6

Upravitelná měkká záře s inteligentními filtry ve Photoshopu

Pochopení histogramů - obrázky s nízkými a vysokými klávesami

Hořící horký oheň text ve Photoshopu

Jak používat vylepšené automatické nastavení úrovní ve Photoshopu

Formát účetního čísla v Excelu Jak použít formát účetnictví?

Excel Automation - Automatizujte úkoly pomocí psaní nebo záznamu maker

Příklady makra Excelu Různé metody použití maker v Excelu

Bullet Points v Excelu Jak přidat Bullet Points v Excelu?

Šablona kalendáře Excel - Jak vytvořit šablonu kalendáře v Excelu?