Úvod do Apache Spark Architecture

Tento článek definuje koncepty architektury Apache Spark a jejích komponent. Je považováno za špičkové zpracování dat na Apache Software Foundation. Spark je nakonec považován za další možnost Hadoop a Map Reduce.

Spark je open-source architektura s dobře definovanými komponenty, které pomáhají analyzovat velké množství dat a pracují pro distribuované výpočty. Spark je psán v Scale s povolenými funkcemi jako API, R a obohatil sadu knihoven, což usnadňuje zpracování dat. Apache Spark má svůj individuální výpočet klastru pro rychlejší přístup a provádí se na různých platformách.

Apache Spark má celou řadu funkcí, jako je zrychlení rychlejšího procesu v paměti, přizpůsobení několika programovacím jazykům, vylepšené techniky ukládání do mezipaměti a podpora dotazů SQL, strojové učení. Běží na platformách, jako jsou operační systémy Microsoft Windows a Linux. Jejich rozmístění říká, že by mohly běžet také na jednom počítači a režimu clusteru.

Apache Spark Architecture

Jiskra Architecture of Apache má volně spojené komponenty. Spark zvažuje hlavní / pracovní proces v architektuře a všechny úkoly pracují na vrcholu distribuovaného systému souborů Hadoop. Apache jiskra využívá Hadoop pro zpracování a ukládání dat. Oni jsou považováni za motor pro zpracování dat v paměti a dělá jejich aplikace běžet na clusterech Hadoop rychleji než paměť. Zpracování v paměti zabraňuje selhání diskových vstupů / výstupů. Spark umožňuje, aby heterogenní úloha pracovala se stejnými daty. Spark rozdělí svá data na oddíly, velikost rozdělených oddílů závisí na daném zdroji dat.

Níže jsou uvedeny dvě hlavní implementace Apache Spark Architecture:

1. Odolné distribuované datové sady (RDD)

Je zodpovědný za poskytování API pro řízení ukládání do mezipaměti a vytváření oddílů. Je to důležitá sada nástrojů pro výpočet dat. Pomáhá při přepisování prvků v případě selhání a považuje se za neměnná data a působí jako rozhraní. Transformace a akce jsou dvě operace prováděné RDD.

2. Řízený acyklický graf (DAG)

Vytváří sekvenční spojení z jednoho uzlu do druhého. Ovladač převede program na DAG pro každou úlohu. Ekosystém Apache Spark má různé komponenty, jako je API jádro, Spark SQL, Streaming a zpracování v reálném čase, MLIB a Graph X. Některé terminologie, které je třeba se zde naučit, je prostředí Spark, které pomáhá při čtení velkých objemů dat, Spark context - zrušit, spustit úlohu, úkol (práci), úlohu (výpočet)

Komponenty Apache Spark Architecture

Čtyři hlavní složky Spark jsou uvedeny níže a je nutné jim porozumět pro celý rámec.

  1. Spark Driver
  2. Exekutoři
  3. Správce clusteru
  4. Uzly pracovníků

Následující obrázek ukazuje architekturu a komponenty jiskry:

Obr: Samostatný režim Apache Spark Architecture

Prováděcí postup začíná takto:

1. Spark Driver

Řidič odpovídá za koordinaci úkolů a pracovníků pro řízení. Je to proces JVM aplikace a je považován za hlavní uzel. Řidič rozdělí jiskru na úkoly a plány, které bude vykonávat na vykonavatelích v klastrech. V diagramu vyvolávají programy ovladače hlavní aplikaci a vytvářejí kontext jisker (funguje jako brána) společně monitorují práci pracující v daném klastru a připojují se k klastru Spark. Všechny funkce a příkazy se provádějí v kontextu jisker.

Kontext jisker je záznam pro každou relaci. Ovladač Spark má více součástí pro provádění úloh v klastrech. Klastry jisker se spojí s různými typy správců klastrů a současně kontext získá pracovní uzly pro provádění a ukládání dat. V klastru, když provádíme proces, je jejich úloha rozdělena do fází s fázemi zisku na naplánované úlohy.

2. Exekutor

Je zodpovědný za provedení úlohy a ukládá data do mezipaměti. Ve velmi počáteční fázi se exekutoři registrují u řidičů. Tento vykonavatel má několik časových slotů pro současné spuštění aplikace. Exekutoři provádějí proces čtení / zápisu na externích zdrojích. Exekutor spustí úlohu, když načte data a jsou odstraněna v klidovém režimu. Exekutor je povolen dynamickým přidělením a jsou průběžně zahrnuti a vyloučeni v závislosti na době trvání. Během provádění úkolů jsou vykonavatelé sledováni programem řidiče. Exekutoři provádějí úlohu uživatelů v java procesu.

3. Správce clusteru

Pomáhá při správě klastrů, které mají jednoho pána a počet otroků. Existují dva typy správců klastrů, jako je YARN, a samostatně jsou oba spravovány správcem zdrojů a uzlem. Práce s klastry na samostatném serveru vyžaduje jako jejich role Spark Master a pracovní uzel. Odpovědností správce clusteru je přidělování zdrojů a provádění úkolu,

4. Pracovní uzly

Jsou to otroky; hlavní zodpovědností je vykonávat úkoly a jejich výstup se vrací zpět do kontextu jisker. Komunikují s hlavním uzlem o dostupnosti zdrojů. Spark context to provede a vydá pracovním uzlům. Každý pracovní uzel má pro monitorování přiřazeného jednoho pracovníka s jiskrou. Vypočítávají velmi jednoduše zvýšením počtu pracovních uzlů (1 až n počet pracovníků), takže všechny úkoly jsou prováděny paralelně rozdělením úlohy do oddílů na více systémech. Úloha druhého prvku je považována za jednotku práce a je přiřazena jednomu vykonavateli, pro každou jiskru oddílu spustí jednu úlohu.

Závěr

Pochopením architektury Apache Spark Architecture tedy znamená, jak snadno implementovat velká data. Nakonec jsme se naučili jejich přístupnost a role jejich komponent, což je velmi výhodné pro klastrovou práci s počítači a technologii velkých dat. Jiskra vypočítají požadované výsledky snadnějším způsobem a dávají přednost dávkovému zpracování.

Charakteristické vlastnosti Spark, jako jsou datové sady a datové rámce, pomáhají optimalizovat uživatelský kód. Důležitá funkce, jako je SQL engine, zvyšuje rychlost provádění a činí tento software univerzálním. Proto jsme viděli, že jiskrové aplikace běží lokálně nebo distribuovány v klastru. Apache Spark je považován za skvělý doplněk v celé řadě průmyslových odvětví, jako jsou velká data. Abych to shrnul, jiskra pomáhá při řešení vysokých výpočetních úkolů.

Doporučené články

Toto je průvodce Apache Spark Architecture. Zde diskutujeme Úvod do architektury Apache Spark spolu s komponentami a blokovým diagramem Apache Spark. Další informace naleznete také v dalších navrhovaných článcích -

  1. Příkazy Spark Shell
  2. Ekosystém Apache Hadoop
  3. Architektura velkých dat
  4. Co je Apache

Kategorie: