Úvod k MapReduce Interview Otázky a odpovědi

MapReduce je jednoduchý model paralelního programování dat navržený pro škálovatelnost a odolnost proti chybám. Můžeme říci, že MapReduce je framework, který používá koncept uzlů k paralelizaci problémů, které se vyskytují ve velkých datových sadách, pokud jde o lokální síť, používá stejný hardware a pokud je MapReduce geograficky distribuován, používá odlišný hardware. MapReduce se v podstatě skládá z funkce Map () a funkce Reduce (). To bylo populární v open-source Hadoop projektu.

Níže je 9 důležitých otázek a odpovědí na MapReduce 2019:

Pokud hledáte práci, která souvisí s MapReduce, musíte se připravit na 2019 MapReduce Interview Otázky. Přestože každý rozhovor s MapReduce je jiný a rozsah práce je také odlišný, můžeme vám pomoci s top otázkami MapReduce Interview s odpověďmi, které vám pomohou udělat krok a získat úspěch v rozhovoru.

Tyto otázky jsou rozděleny do dvou částí:

Část 1 - MapReduce Interview Otázky (základní)

Tato první část se zabývá základními otázkami a odpověďmi MapReduce Interview.

1. Co je MapReduce?

Odpovědět:
MapReduce je jednoduchý model paralelního programování dat navržený pro škálovatelnost a odolnost proti chybám. Jinými slovy, je to rámec, který zpracovává paralelizovatelné problémy ve velkých souborech dat pomocí konceptu uzlů (počet počítačů), které jsou zase klasifikovány jako klastry, pokud se jedná o lokální síť, a pokud používají stejný hardware nebo sítě, geograficky distribuován a používat jiný hardware. MapReduce v podstatě sestává z funkce Map () a funkce Reduce (). Byla propagována společností Google a každý den zpracovává mnoho petabajtů dat. To bylo populární open-source Hadoop projekt a je používán u Yahoo, Facebook a Amazon jmenovat nemnoho.

2. K čemu se MapReduce používá pro společnost?

Odpovědět:
Google
• Konstrukce indexu pro vyhledávání Google
Proces konstrukce pozičního nebo nepozičního indexu se nazývá konstrukce nebo indexování indexu. Role MapReduce je Index Construction a je určena pro velké počítačové klastry. Účelem klastru je vyřešit výpočetní problémy pro uzly nebo počítače, které jsou postaveny spíše na standardních částech než na superpočítači.
• Článek Clustering pro Zprávy Google
Pro seskupování článků jsou stránky nejprve roztříděny podle toho, zda jsou potřebné pro seskupování. Stránky obsahují mnoho informací, které nejsou pro shlukování zapotřebí. Poté je článek přiveden do vektorové podoby na základě klíčových slov a hmotnosti, která je uvedena. Pak jsou seskupeny pomocí algoritmů.
• Statistický strojový překlad
Překlad dvojjazyčných textových korpusů analýzou generuje statistické modely, které překládají jeden jazyk do druhého pomocí hmotností a jsou redukovány na nejpravděpodobnější překlad.
Yahoo
• „Webová mapa“ pohánějící Yahoo! Vyhledávání
Podobně jako v článku seskupování pro Zprávy Google se MapReduce používá k seskupování výstupů vyhledávání na Yahoo! Plošina.
• Detekce spamu pro Yahoo! Pošta
Facebook
• Těžba dat
Nedávný trend exploze dat vedl k potřebě sofistikovaných metod rozdělení dat na kousky, které lze snadno použít pro další krok analýzy.
• d Optimalizace
• Detekce spamu

Přejdeme k dalším otázkám Interview s MapReduce.

3. Jaké jsou cíle návrhu MapReduce

Odpovědět:
Škálovatelnost na velké objemy dat
Protože MapReduce je rámec, který je zaměřen na práci s paralelizovatelnými daty pomocí konceptu uzlů, které jsou počtem počítačů buď jako shluky nebo sítě, je škálovatelné na n počtu počítačových strojů. Jedním z prominentních designových cílů MapReduce je, že je škálovatelný na 1000 strojů a tak na 10 000 disků.
Nákladová efektivita
Protože MapReduce pracuje s paralelizací dat v uzlech nebo počtu počítačů, jsou důvody, proč jsou nákladově efektivní, následující:
-Všechny komoditní stroje namísto superpočítače. Ačkoli levné, jsou nespolehlivé.
- Síť moderní dopravy
-Automatická odolnost proti chybám, tj. Je vyžadováno méně správců.
-Je snadno použitelný, tj. Vyžaduje méně programátorů.

4. Jaké jsou výzvy MapReduce?

Odpovědět:
Toto jsou běžné otázky MapReduce Interview, které byly položeny v rozhovoru. Hlavní výzvy MapReduce jsou následující:
-Cheap uzly selžou, zejména pokud jich máte mnoho
Průměrná doba mezi poruchami pro 1 uzel je rovna 3 rokům. Průměrná doba mezi poruchami pro 1000 uzlů se rovná 1 dni. Řešením je zabudování odolnosti proti chybám do samotného systému.
- Síť modemů je stejná nebo znamená malou šířku pásma
Řešením pro malou šířku pásma je posunout výpočet dat.
- Programování distribuovaných systémů je obtížné
Řešením je to, že podle datově paralelního programovacího modelu uživatelé píšou funkce „map“ a „redukovat“. Systém distribuuje práci a řeší poruchy.

5. Co je programový model MapReduce?

Odpovědět:
Programovací model MapReduce je založen na konceptu nazvaném záznamy klíč-hodnota. Poskytuje také paradigma pro paralelní zpracování dat. Pro zpracování dat v MapReduce musí být jak vstupní data, tak výstup mapovány do formátu více párů klíč-hodnota. Jeden pár klíč-hodnota je také označován jako záznam. Programovací model MapReduce se skládá z funkce Map () a funkce Reduce. Jejich vzor je následující.
Funkce Map (): (K in, V in) list (K inter, V inter)
Funkce Reduce (): (K inter, list (V inter)) list (K out, V out)

Část 2 - MapReduce Interview Otázky (pokročilé)

Pojďme se nyní podívat na pokročilé otázky Interview s MapReduce.

6. Jaké jsou podrobnosti o provedení MapReduce?

Odpovědět:
V případě provádění MapReduce řídí jeden master provádění úlohy na více slave. Mapovače jsou přednostně umístěny na stejném uzlu nebo stejném stojanu jako jejich vstupní blok, takže minimalizují využití sítě. Mapovače také ukládají výstupy na místní disk a poté je obsluhují reduktorům. To umožňuje zotavení v případě selhání reduktoru a umožňuje více reduktorů než uzlů.

7. Co je kombinátor?

Odpovědět:
Kombinátor, známý také jako polo-reduktor, pracuje tak, že přijímá vstupy z třídy Map a předává páry výstupů klíč-hodnota do třídy Reducer. Hlavní funkcí kombinátoru je shrnout záznamy výstupů mapy se stejným klíčem. Jinými slovy, kombinátor je funkce místní agregace pro opakované klíče vytvořené stejnou mapou. Funguje pro asociativní funkce jako SUM, COUNT a MAX. Snižuje velikost mezilehlých dat, protože je souhrnem agregace hodnot pro všechny opakující se klíče.

Přejdeme k dalším otázkám Interview s MapReduce.

8.Proč prase? Proč ne MapReduce?

Odpovědět:
• MapReduce umožňuje programátorovi provádět mapovou funkci následovanou redukční funkcí, ale práce na tom, jak přizpůsobit zpracování vašich dat tomuto vzoru, který často vyžaduje více fází MapReduce, může být výzvou.
• V případě Pig jsou datové struktury mnohem bohatší, protože jsou vícehodnotové a vnořené a sada transformací, které můžete použít, je mnohem silnější. Například zahrnují spojení, která nejsou v MapReduce možná.
• Pig je také jeden program, který přeměňuje transformaci na řadu MapReduce Jobs.

9.MapReduce Criticism

Odpovědět:
Jednou z významných kritik MapReduce je, že vývojový cyklus je velmi dlouhý. Psaní mapovačů a reduktorů, kompilace a zabalení kódu, odeslání úlohy a načtení výsledků je časově náročné. I při streamování, které odstraňuje krok kompilace a balíčku, stále trvá zážitek dlouho.

Doporučený článek

Toto byl průvodce seznamem otázek a odpovědí MapReduce Interview, aby mohl kandidát snadno provést zásah do těchto dotazů MapReduce. Další informace naleznete také v následujících článcích -

  1. Důležité otázky týkající se rozhovoru s analýzou dat
  2. 10 nejlepších otázek pro návrhové rozhovory
  3. Elasticsearch Interview Otázky
  4. Nejužitečnější Ruby Interview otázky
  5. Jak MapReduce funguje

Kategorie: