Úvod do otázek a odpovědí na rozhovor s jiskrou
Apache Spark je open-source framework. Spark, protože se jedná o platformu s otevřeným zdrojovým kódem, můžeme použít více programovacích jazyků, jako jsou java, python, Scala, R. Ve srovnání s výkonem procesu Map-Reduce pomáhá jiskra při zlepšování výkonu provádění. Poskytuje také 100krát rychlejší spuštění v paměti než Map-Reduce. Kvůli Zpracovatelské síle jiskry dnes průmyslová odvětví preferují jiskru.
Takže jste konečně našli svou vysněnou práci ve Spark, ale přemýšlíte, jak rozbít Spark Interview a jaké by mohly být pravděpodobné otázky Spark Interview pro rok 2018. Každý rozhovor je jiný a také rozsah práce je jiný. S ohledem na to jsme pro rok 2018 navrhli nejběžnější dotazy a odpovědi týkající se rozhovoru se Sparkem, abychom vám pomohli dosáhnout úspěchu v rozhovoru.
Tyto otázky jsou rozděleny do dvou částí
1. část - Otázky k rozhovoru s jiskrou (základní)
Tato první část se zabývá základními otázkami a odpověďmi na rozhovor Spark
1. Co je to Spark?
Odpovědět:
Apache Spark je open-source framework. Zlepšuje výkon provádění než proces Map-Reduce. Je to otevřená platforma, kde můžeme používat více programovacích jazyků jako Java, Python, Scala, R. Spark poskytuje v paměti provádění, které je 100krát rychlejší než Map-Reduce. Využívá koncept RDD. RDD je odolná distribuovaná datová sada, která jí umožňuje transparentně ukládat data do paměti a vytrvat je na disk, jen když je to potřeba. Zde zkrátí dobu přístupu k datům z paměti namísto disku. Dnes průmysl upřednostňuje Spark kvůli jeho výpočetní síle.
2. Rozdíl mezi Hadoopem a Sparkem?
Odpovědět:
Kritéria funkce | Apache Spark | Hadoop |
Rychlost | 10 až 100krát rychlejší než Hadoop | Normální rychlost |
zpracovává se | Zpracování v reálném čase a šarže, In-memory, Caching | Pouze dávkové zpracování, závisí na disku |
Obtížnost | Snadné díky modulům na vysoké úrovni | Těžko se učit |
Zotavení | Umožňuje obnovu oddílů pomocí RDD | Tolerantní k chybám |
Interaktivita | Má interaktivní, interaktivní režimy | Žádný interaktivní režim kromě prasete a úlu, žádný iterativní režim |
Normální architektura Hadoop se řídí základní mapovou redukcí, pro stejný proces jiskra poskytuje provedení v paměti. Namísto čtení a zápisu z pevného disku pro Map-Reduce poskytuje jiskra čtení a zápis z virtuální paměti.
Přejdeme k dalším otázkám Spark Interview
3. Jaké jsou vlastnosti Spark?
Odpovědět:
- Poskytujte integrační zařízení s Hadoop a soubory na HDFS. Spark může běžet na Hadoopu pomocí sdružování zdrojů YARN. Spark má kapacitu nahradit motor Hadoop's Map-Reduce.
- Polyglot: Spark Poskytujte API na vysoké úrovni pro Java, Python, Scala a R. Spark Code lze psát v kterémkoli z těchto čtyř jazyků. IT poskytuje nezávislý shell pro měřítko (jazyk, ve kterém je napsána Spark) a pythonový tlumočník. Které pomohou při interakci s jiskrovým motorem? Shell Scala je přístupný přes ./bin/spark-shell a Python shell přes ./bin/pyspark z nainstalovaného adresáře.
- Rychlost: Spark engine je 100krát rychlejší než Hadoop Map-Reduce pro zpracování rozsáhlých dat. Rychlosti bude dosaženo dělením pro paralelní zpracování distribuovaných dat s minimálním provozem v síti. Spark Poskytuje RDD (Resilient Distributed Datasets), které lze ukládat do mezipaměti mezi výpočetními uzly v clusteru
- Více formátů: Spark má API zdroje dat. Poskytne mechanismus pro přístup ke strukturovaným datům prostřednictvím jiskrové SQL. Zdroje dat mohou být cokoli, Spark pouze vytvoří mechanismus pro převod dat a jejich přitažení k jiskře. Spark podporuje více zdrojů dat jako Hive, HBase, Cassandra, JSON, Parquet, ORC.
- Spark poskytuje některé vestavěné knihovny pro provádění více úloh ze stejného jádra, jako je dávkové zpracování, napařování, strojové učení, interaktivní dotazy SQL. Hadoop však podporuje pouze dávkové zpracování. Spark Poskytněte MLIb (Machine learning library), které budou užitečné pro vývojáře Big-Data při zpracování dat. To pomáhá odstranit závislosti na více nástrojích pro různé účely. Spark poskytuje běžnou výkonnou platformu pro datové inženýry a datové vědce s rychlým výkonem a snadným používáním.
- Apache Spark zpožďuje provádění procesu, dokud není nutná akce. To je jedna z klíčových vlastností jiskry. Spark přidá každou transformaci do DAG (Direct Acyclic Graph) k provedení, a když akce chce provést, ve skutečnosti spustí DAG ke zpracování.
- Streamování v reálném čase: Apache Spark Poskytuje výpočty v reálném čase a nízkou latenci kvůli provádění v paměti. Spark je určen pro velké škálovatelnosti, jako je tisíc uzlů klastru a několik modelů pro výpočet.
4. Co je YARN?
Odpovědět:
Toto jsou základní otázky týkající se otázek Spark Interview, které byly položeny v rozhovoru. YARN (ještě jiný vyjednávač zdrojů) je správce zdrojů. Spark je platforma, která poskytuje rychlé provedení. Spark použije YARN k provedení úlohy do klastru namísto vlastního vestavěného správce. Existuje několik konfigurací pro spuštění příze. Patří mezi ně master, režim nasazení, paměť řidiče, paměť exekutora, jádra exekutorů a fronta. Toto jsou běžné otázky týkající se rozhovoru s jiskrou, které jsou kladeny v níže uvedeném rozhovoru, jsou výhody jisker:
Výhody Spark oproti Map-Reduce
Spark má oproti Map-Reduce výhody:
Díky schopnosti procesu v paměti dokáže Spark provádět 10 až 100krát rychleji než Map-Reduce. Kde lze Map-Reduce použít pro perzistenci dat ve fázi Map and Reduce.
Apache Spark poskytuje vysokou úroveň vestavěných knihoven pro zpracování více úloh současně s dávkovým zpracováním, streamováním v reálném čase, Spark-SQL, strukturovaným streamováním, MLib atd. Současně Hadoop poskytuje pouze dávkové zpracování.
Proces Hadoop Map-Reduce bude záviset na disku, kde Spark poskytuje mezipaměť a paměť.
Spark má iterativní, provádět výpočet násobně na stejném datovém souboru i interaktivní, provádět výpočet mezi různými datovými sadami, kde Hadoop nepodporuje iterativní výpočet.
5. Jaký jazyk podporuje Spark?
Odpovědět:
Podpora jisker scala, Python, R a Java. Na trhu, velký datový vývojář většinou preferuje scala a python. K tomu, aby měřítko sestavilo kód, potřebujeme nastavit cestu k adresáři měřítka / bin nebo vytvořit soubor jar.
6. Co je to RDD?
Odpovědět:
RDD je abstrakce Resilient Distributed Dataset, která poskytuje kolekci prvků rozdělených do všech uzlů klastru, což pomůže provádět paralelně více procesů. Pomocí RDD vývojář může ukládat data do paměti nebo ukládání do mezipaměti, aby je bylo možné efektivně znovu použít pro paralelní provádění operací. RDD lze snadno obnovit při selhání uzlu.
Část 2 - Otázky k rozhovoru s jiskrou (pokročilé)
Pojďme se nyní podívat na pokročilé otázky týkající se rozhovoru se Spark.
7. Jaké jsou faktory odpovědné za provedení Spark?
Odpovědět:
1. Spark umožňuje provádění v paměti místo disku závislého, jako je Hadoop Map-Reduce.
2.RDD Resilient Distributed Dataset, což je odpovědné paralelní provádění více operací na všech uzlech klastru.
3. Spark poskytuje funkci sdílené proměnné pro paralelní provádění. Tyto proměnné pomáhají omezit přenos dat mezi uzly a sdílet kopii všech uzlů. Existují dvě proměnné.
4.Broadcast Proměnná: Tato proměnná může být použita ke vyrovnávací paměti hodnoty v paměti na všech uzlech
5. Proměnná akumulátory: Tato proměnná je pouze „přidána“, jako jsou čítače a součty.
8. Co je paměť exekutorů?
Odpovědět:
Toto jsou nejčastěji kladené otázky ohledně rozhovoru se Sparkem v rozhovoru. Je to velikost haldy alokovaná pro vykonavatele jisker. Tuto vlastnost lze ovládat pomocí vlastnosti spark.executor.memory příznaku paměti –executor-memory. Každá aplikace Spark má jednoho vykonavatele pro každý pracovní uzel. Tato vlastnost odkazuje na to, kolik paměti pracovních uzlů bude přiděleno aplikaci.
9. Jak používáte Spark Stream? Vysvětlete jeden případ použití?
Odpovědět:
Spark Stream je jednou z funkcí, která je užitečná pro případ použití v reálném čase. K tomuto účelu můžeme použít žlábek Kafka s jiskrou. Flume spustí data ze zdroje. Kafka data přenese do tématu. Z Kafka Spark vytáhne data pomocí proudu a D-stream data a provede transformaci.
Tento proces můžeme použít pro podezřelé transakce v reálném čase, nabídky v reálném čase atd.
Přejdeme k dalším otázkám Spark Interview
10. Můžeme použít Spark pro ETL proces?
Odpovědět:
Ano, pro proces ETL můžeme použít jiskrovou platformu.
11. Co je to Spark SQL?
Odpovědět:
Je to jedna speciální součást jiskry, která bude podporovat dotazy SQL.
12. Jaké Lazy Evaluation?
Odpovědět:
Když pracujeme s jiskrou, transformace se nevyhodnocují, dokud neprovedete akci. To pomáhá optimalizovat celkový pracovní postup zpracování dat. Při definování transformace se přidá k DAG (Direct Acyclic Graph). A v okamžiku akce začne provádět postupné transformace. Toto je užitečná otázka Spark Interview položená v rozhovoru.
Doporučený článek
Toto byl průvodce seznamem otázek a odpovědí na otázky týkající se rozhovoru s jiskrou, aby uchazeč mohl tyto otázky týkající se otázek s jiskrou snadno zakročit. Další informace naleznete také v následujících článcích
- Java vs Node JS zjednodušující rozdíly
- Mongo Database Interview Otázky | Užitečné a nejžádanější
- 15 nejúspěšnějších dotazů a odpovědí na rozhovor
- Perl Interview Otázky a odpovědi
- Otázky systému Interview systému SAS - Top 10 užitečných otázek