Nainstalujte jiskru - Kompletní průvodce instalací jisker

Obsah:

Anonim

Jak nainstalovat Spark?

Spark je open source framework pro běh analytických aplikací. Jedná se o stroj pro zpracování dat hostovaný u dodavatele nezávislé na Apache Software Foundation, který pracuje na velkých souborech dat nebo na velkých datech. Je to univerzální klastrový výpočetní systém, který poskytuje API na vysoké úrovni v Scala, Python, Java a R. Byl vyvinut k překonání omezení v paradigmatu Hadoop v MapReduce. Vědci dat se domnívají, že Spark pracuje 100krát rychleji než MapReduce, protože dokáže ukládat data do paměti, zatímco MapReduce funguje více čtením a zápisem na disky. Provádí zpracování v paměti, díky čemuž je výkonnější a rychlejší.

Spark nemá svůj vlastní systém souborů. Zpracovává data z různých zdrojů dat, jako je Hadoop Distributed File System (HDFS), Amazon S3 systém, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Může běžet na Hadoop YARN (ještě jeden prostředek pro vyjednávání zdrojů), na Mesosu, na EC2, na Kubernetes nebo pomocí samostatného clusterového režimu. Používá RDD (Resilient Distributed Dataset) k delegování pracovního zatížení na jednotlivé uzly, které podporují iterační aplikace. Díky RDD je programování ve srovnání s Hadoop snadné.

Spark se skládá z různých složek zvaných jako Spark Ecosystem Components.

  • Spark Core: Je to základ aplikace Spark, na které jsou ostatní komponenty přímo závislé. Poskytuje platformu pro celou řadu aplikací, jako je plánování, distribuované odesílání úkolů, zpracování paměti a odkazování na data.
  • Spark Streaming: Jedná se o komponentu, která pracuje na živých datových proudech a poskytuje analytiku v reálném čase. Živá data jsou přijímána do diskrétních jednotek nazývaných šarže, které jsou prováděny na Spark Core.
  • Spark SQL: Je to komponenta, která pracuje nad jádrem Spark a spouští dotazy SQL na strukturovaná nebo polostrukturovaná data. Datový rámec je způsob interakce s programem Spark SQL.
  • GraphX: Je to grafový výpočetní modul nebo framework, který umožňuje zpracování grafických dat. Poskytuje různé grafové algoritmy pro spuštění na Spark.
  • MLlib: Obsahuje algoritmy strojového učení, které poskytují rámec strojového učení v distribuovaném prostředí založeném na paměti. Provádí iterativní algoritmy efektivně díky schopnosti zpracování dat v paměti.
  • SparkR: Spark poskytuje balíček R ke spuštění nebo analýze datových sad pomocí shellu R.

Existují tři způsoby, jak nainstalovat nebo nasadit jiskru do vašich systémů:

  1. Samostatný režim v Apache Spark
  2. Hadoop YARN / Mesos
  3. SIMR (Spark in MapReduce)

Uvidíme nasazení v samostatném režimu.

Samostatný režim nasazení jisker:

Krok 1: Aktualizujte index balíčku

Je nutné aktualizovat všechny současné balíčky ve vašem počítači.

Použijte příkaz : $ sudo apt-get update

Krok 2: Instalace sady Java Development Kit (JDK)

To nainstaluje JDK do vašeho počítače a pomůže vám spouštět Java aplikace.

Krok 3: Zkontrolujte, zda je Java správně nainstalována

Java je nezbytným předpokladem pro použití nebo spuštění aplikací Apache Spark.

Použijte příkaz : $ java –version

Tento snímek obrazovky zobrazuje verzi javy a zajišťuje přítomnost javy v počítači.

Krok 4: Nainstalujte Scala do svého počítače

Protože Spark je psán v měřítku, musí být nainstalována váha, aby na vašem stroji fungovala jiskra.

Použijte příkaz: $ sudo apt-get install scala

Krok 5: Ověřte, zda je Scala správně nainstalována

Tím zajistíte úspěšnou instalaci měřítka na váš systém.

Použijte příkaz : $ scala –version

Krok 6: Stáhněte Apache Spark

Stáhněte si Apache Spark podle vaší verze Hadoop z https://spark.apache.org/downloads.html

Když přejdete na výše uvedený odkaz, objeví se okno.

Krok 7: Vyberte příslušnou verzi podle vaší verze Hadoop a klikněte na odkaz označený.

Objeví se další okno.

Krok 8: Klikněte na odkaz označený a jiskra Apache by byla stažena do vašeho systému.

Ověřte, zda je soubor .tar.gz k dispozici ve složce pro stahování.

Krok 9: Nainstalujte Apache Spark

Pro instalaci Spark musí být extrahován soubor dehtu.

Použijte příkaz: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Verze uvedenou v příkazu musíte změnit podle stažené verze. V této verzi jsme stáhli verzi spark-2.4.0-bin-hadoop2.7.

Krok 10: Proměnná prostředí instalace pro Apache Spark

Použijte příkaz: $ source ~ / .bashrc

Přidat řádek : export PATH = $ PATH: / usr / local / spark / bin

Krok 11: Ověřte instalaci Apache Spark

Použijte příkaz : $ spark-shell

Pokud byla instalace úspěšná, bude vytvořen následující výstup.

To znamená úspěšnou instalaci Apache Spark do vašeho počítače a Apache Spark se spustí v Scale.

Nasazení jiskry na Hadoop YARN:

Existují dva režimy pro nasazení Apache Spark na Hadoop YARN.

  1. Clusterový režim: V tomto režimu spravuje YARN na clusteru ovladač Spark, který běží uvnitř hlavního procesu aplikace. Po spuštění aplikace může klient jít.
  2. Klientský režim: V tomto režimu jsou prostředky vyžádány od YARN hlavním aplikačním programem a ovladač Spark běží v klientském procesu.

Chcete-li nasadit aplikaci Spark v režimu clusteru, použijte příkaz:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Výše uvedený příkaz spustí klientský program YARN, který spustí výchozí aplikaci Master.

Chcete-li nasadit aplikaci Spark v klientském režimu, použijte příkaz:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Spouštěcí prostředí můžete spustit v klientském režimu pomocí příkazu:

$ spark-shell –master yarn –deploy-mode client

Tipy a triky k použití jiskrové instalace:

  1. Před instalací jiskry se ujistěte, že je na vašem počítači nainstalována Java.
  2. Pokud používáte jazyk Scala, ujistěte se, že měřítko je již nainstalováno před použitím Apache Spark.
  3. Můžete použít Python také místo Scaly pro programování ve Sparku, ale musí být také předinstalován jako Scala.
  4. Apache Spark můžete také spouštět na Windows, ale doporučujeme vytvořit virtuální stroj a nainstalovat Ubuntu pomocí Oracle Virtual Box nebo VMWare Player .
  5. Spark může běžet bez Hadoopu (tj. Samostatný režim), ale pokud je vyžadováno nastavení více uzlů, pak jsou potřeba manažeři zdrojů jako YARN nebo Mesos.
  6. Při použití YARN není nutné instalovat Spark na všechny tři uzly. Apache Spark musíte nainstalovat pouze na jeden uzel.
  7. Pokud používáte YARN, pokud jste ve stejné místní síti s klastrem, můžete použít klientský režim, zatímco pokud jste daleko, můžete použít režim klastru.

Doporučené články - Instalace jisker

Toto je průvodce, jak nainstalovat Spark. Zde jsme viděli, jak nasadit Apache Spark v samostatném režimu a na vrcholu správce zdrojů YARN a také Některé tipy a triky jsou také zmíněny pro hladkou instalaci Spark. Další informace naleznete také v následujícím článku -

  1. Jak používat příkazy Spark
  2. Kariéra ve hře Spark - musíte vyzkoušet
  3. Rozdíly Splunk vs Spark
  4. Spark Rozhovor Otázky a odpovědi
  5. Výhody Spark Streamování
  6. Typy spojení ve Spark SQL (příklady)