Úvod do otázek a odpovědí na rozhovor s Apache PIG

Takže jste konečně našli svoji vysněnou práci v Apache PIG, ale přemýšlíme, jak rozbít rozhovor Apache PIG z roku 2019 a jaké by mohly být pravděpodobné otázky týkající se rozhovoru s Apache PIG. Každý rozhovor Apache PIG je jiný a rozsah práce je také jiný. S ohledem na tuto skutečnost jsme navrhli nejčastější otázky a odpovědi týkající se rozhovoru Apache PIG, které vám pomohou dosáhnout úspěchu v rozhovoru pro Apache PIG.

Následuje seznam 2019 dotazů Apache PIG Interview, které jsou nejčastěji kladeny

1. Jaké jsou klíčové rozdíly mezi MapReduce a Apache Pig?

Odpovědět:
Níže jsou uvedeny hlavní rozdíly mezi Apache Pig a MapReduce, díky nimž Apache Pig přišel na obrázek:
• MapReduce je nízkoúrovňový model zpracování dat, zatímco Apache Pig je platforma na vysoké úrovni toku dat
• Bez psaní složitých implementací Java v MapReduce mohou programátoři snadno dosáhnout stejných implementací pomocí Pig Latin.
• Apache Pig poskytuje vnořené datové typy, jako jsou tašky, n-tice a mapy, protože v MapReduce chybí.
• Prase podporuje datové operace, jako jsou filtry, spojení, řazení, řazení atd. S mnoha vestavěnými operátory. Vzhledem k tomu, vykonávat stejnou funkci v MapReduce je obrovský úkol.

2. Vysvětlete použití MapReduce v prase.

Odpovědět:
Programy Apache Pig jsou psány v jazyce dotazu známém jako Pig Latin, který je podobný dotazovacímu jazyku SQL. K provedení dotazu je potřeba vykonávací stroj. A Pig engine převádí dotazy na úlohy MapReduce a MapReduce tak funguje jako spouštěcí motor a je potřebný ke spuštění programů.

3. Vysvětlete použití prasete.

Odpovědět:
Prase můžeme použít ve třech kategoriích:
• Datový kanál ETL: Naplňuje náš datový sklad. Prase může dát potrubí do externí aplikace, bude čekat, až bude hotovo, aby přijala zpracovaná data a odtud pokračovat. Jedná se o nejčastější případ použití pro prasátko.
• Výzkum nezpracovaných údajů.
• Iterativní zpracování.

4. Porovnejte Apache Pig a SQL.

Odpovědět:
• Apache Pig se liší od SQL, pokud jde o použití pro ETL, líné vyhodnocení, ukládání dat v kterémkoli daném okamžiku v potrubí, podporu rozdělení potrubí a explicitní deklaraci prováděcích plánů. SQL (Structure query language) je orientován kolem dotazů, které vedou k jedinému výsledku. SQL nemá vestavěný mechanismus pro rozdělení toku zpracování dat a použití různých operátorů na každý dílčí proud.
• Apache Pig umožňuje zahrnutí uživatelského kódu v kterémkoli bodě potrubí, zatímco pokud SQL, kam mají být použita data, musí být nejprve importovány do databáze a poté začíná proces čištění a transformace.

5. Vysvětlete různé složité typy dat v prase.

Odpovědět:
Apache Pig podporuje tři komplexní datové typy -
• Mapy - Jedná se o klíčové obchody s hodnotami spojené dohromady pomocí #.
Příklad: ('city' # 'pune', 'pin' # 411045) • Tuples- Podobně jako řádek v tabulce, kde jsou různé položky odděleny čárkou. Tuples mohou mít více atributů.
• Tašky - Neuspořádaná sbírka n-tic. Taška umožňuje více duplicitních n-tic.
Příklad: (('Bombaj', 022), ('Nové Dillí', 011), ('Kalkata', 44))

6. Vysvětlete různé prováděcí modely dostupné v prase.

Odpovědět:
V Pig jsou k dispozici tři různé režimy provádění,
• Interaktivní režim nebo Grunt režim.
Interaktivní režim nebo režim grunt: Interaktivní prostředí prase je známo jako grunt shell. Pokud není pro spuštění v Pig určen žádný soubor, spustí se.
• Dávkový režim nebo skriptový režim.
Prase provede zadané příkazy v souboru skriptu.
• Vestavěný režim
Můžeme vkládat Pig programy do Java a můžeme je spouštět z Java.

7. Vysvětlete plánům provádění (logický a fyzický plán) prasečího skriptu

Odpovědět:
Během provádění prasečího skriptu se vytvářejí logické a fyzické plány. Prasečí skripty jsou založeny na kontrole tlumočníka. Logický plán je vytvářen sémantickou kontrolou a základním rozborem a při vytváření logického plánu nedochází ke zpracování dat. Pro každý řádek ve skriptu Pig je provedena kontrola syntaxe pro operátory a je vytvořen logický plán. Kdykoli ve skriptu dojde k chybě, vyvolá se výjimka a spuštění programu skončí, jinak má každý příkaz ve skriptu svůj vlastní logický plán.
Logický plán obsahuje soubor operátorů ve skriptu, ale neobsahuje hrany mezi operátory.
Po vygenerování logického plánu se spuštění skriptu přesune do fyzického plánu, kde je popis fyzických operátorů, které Apache Pig použije, k provedení skriptu Pig. Fyzický plán je víceméně jako řada úloh MapReduce, ale pak plán nemá žádný odkaz na to, jak bude proveden v MapReduce. Během vytváření fyzického plánu je logický operátor cogroup převeden na 3 fyzické operátory, jmenovitě - místní uspořádání, globální uspořádání a balíček. Funkce načtení a uložení se obvykle vyřeší ve fyzickém plánu.

8. Jaké ladicí nástroje se používají pro skripty Apache Pig?

Odpovědět:
Popište a vysvětlete důležité ladicí nástroje v Apache Pig.
• Nástroj Explain je užitečný pro vývojáře Hadoop při pokusu o ladění chyb nebo optimalizaci skriptů PigLatin. vysvětlit může být použito na konkrétní alias ve skriptu nebo může být použito na celý skript v grunt interaktivním shellu. utilita vysvětlit vytvoří několik grafů v textovém formátu, které lze vytisknout do souboru.
• Nástroj pro popis ladění je užitečný pro vývojáře při psaní skriptů prasete, protože ukazuje schéma vztahu ve skriptu. Pro začátečníky, kteří se snaží naučit Apache Pig, mohou pomocí obslužného programu description popsat, jak každý operátor provádí změny dat. Prasečí skript může mít více popisů.

9. Na jaké případy použití Apache Pig můžete myslet?

Odpovědět:
• Velký datový nástroj Apache Pig se používá zejména pro iterativní zpracování, výzkum surových dat a pro tradiční datové potrubí ETL. Vzhledem k tomu, že Pig může fungovat za okolností, kdy schéma není známo, je nekonzistentní nebo neúplné - je široce využíváno vědci, kteří chtějí data využít před jejich vyčištěním a načtením do datového skladu.
• Například k vytváření modelů predikce chování může být web používán ke sledování reakce návštěvníků na různé typy reklam, obrázků, článků atd.

10. Zvýrazněte rozdíl mezi operátory skupiny a skupiny Cogroup v Pig.

Odpovědět:
Oba operátoři mohou pracovat s jedním nebo více vztahy. Operátoři skupiny a skupiny Cogroup jsou identičtí. Operátor skupiny shromažďuje všechny záznamy pomocí stejného klíče. Cogroup je kombinace skupiny a spojení, jedná se o zobecnění skupiny místo sběru záznamů jednoho vstupu, záleží na klíči, sbírá záznamy n vstupů na základě klíče. Najednou můžeme seskupit až 127 vztahů.

Doporučené články

Toto byl průvodce seznamem otázek a odpovědí na seznam otázek a odpovědí Apache PIG Interview, aby uchazeč mohl snadno odpovědět na tyto otázky týkající se pohovoru Apache PIG. Tento článek se skládá ze všech užitečných otázek a odpovědí na rozhovor Apache PIG Interview, které vám pomohou při pohovoru. Další informace naleznete také v následujících článcích -

  1. Apache Pig vs Apache Hive
  2. 10 nejdůležitějších otázek rozhovoru
  3. 8 účinných kroků k přípravě na interní rozhovor
  4. Důležité tipy, jak přežít rozhovor v panelu (užitečné)

Kategorie: