Hadoop Cluster Interview Otázky a odpovědi

Účelem tohoto článku je pomoci všem uchazečům o Big Data odpovědět na všechny otázky Hadoop Cluster Interview týkající se nastavení prostředí Big Data v organizaci. Tento dotazník pomůže při nastavování datových uzlů, jmenných uzlů a definování kapacity hostovaného serveru démonů velkých dat.

Pokud jste tedy konečně našli svoji vysněnou práci v Hadoop Cluster, ale přemýšlíte, jak rozbít rozhovor Hadoop Cluster a jaké by mohly být pravděpodobné otázky Hadoop Cluster Interview. Každý rozhovor je jiný a rozsah práce je také jiný. S ohledem na tuto skutečnost jsme navrhli nejčastější dotazy a odpovědi týkající se rozhovoru s Hadoop Cluster, které vám pomohou dosáhnout úspěchu v rozhovoru.

Některé z nejdůležitějších otázek Hadoop Cluster Interview, které jsou často kladeny v rozhovoru, jsou následující:

1.Jaké jsou hlavní komponenty Hadoop v clusteru Hadoop?

Odpovědět :
Hadoop je rámec, kde zpracováváme velká data, nebo Hadoop je platforma, na které lze zpracovávat obrovské množství dat na komoditních serverech. Hadoop je kombinací mnoha komponent. Následuje hlavní komponenty v prostředí Hadoop.
Název uzlu : Hlavní uzel se stará o všechny informace o datových uzlech a umístění úložiště dat ve formátu metadat.
Uzel sekundárního jména : Funguje jako primární uzel názvu, pokud uzel primárního jména klesá.
HDFS (distribuovaný systém souborů Hadoop) : Postará se o veškeré úložiště clusteru Hadoop.
Datové uzly : Datové uzly jsou slave uzly. Aktuální data se ukládají do Slave Nodes ke zpracování.
YARN (ještě jeden prostředek pro vyjednávání zdrojů) : Softwarový rámec pro psaní aplikací a zpracování obrovského množství dat. Poskytuje stejné funkce jako MapReduce, navíc by umožnilo, aby každá dávková úloha byla spuštěna paralelně v klastru Hadoop.

2.Jak plánovat ukládání dat v klastru Hadoop?

Odpovědět :
Úložiště je založeno na vzorci (Úložiště = Denní příjem dat * Replikace).
Pokud klastr Hadoop získává data 120 TB denně a máme výchozí replikační faktor, takže by požadavky na denní ukládání dat byly
Požadavek na ukládání = 120 TB (denní příjem dat) * 3 (výchozí replikace) => 360 TB
V důsledku toho musíme nastavit nejméně 360 TB datového klastru pro denní požadavek na příjem dat.
Ukládání závisí také na požadavcích na uchovávání dat. V případě, že chceme, aby byla data uložena po dobu 2 let ve stejném clusteru, tak musíme uspořádat datové uzly podle požadavku zachování.

3.Výpočet čísel datového uzlu.

Odpovědět :
Musíme vypočítat počet datových uzlů požadovaných pro klastr Hadoop. Předpokládejme, že máme servery s JBOD 10 disků a každý disk má velikost úložiště 4 TB, takže každý server má úložiště 40 TB. Klastr Hadoop získává data 120 TB za den a 360 TB po použití výchozího replikačního faktoru.
Počet datových uzlů = Denní příjem dat / kapacita datových uzlů
Počet datových uzlů = 360/40 => 9 datových uzlů
Proto pro klastr Hadoop, který získává 120 TB dat s výše uvedenou konfigurací, je třeba nastavit pouze 9 datových uzlů.

4.Jak změnit replikační faktor v clusteru Hadoop?

Odpovědět :
Upravit soubor hdfs-site.xml. Výchozí cesta je ve složce conf / folder instalačního adresáře Hadoop. změnit / přidat následující vlastnost v hdfs-site.xml:
dfs.replication
3
Bloková replikace
Není nutné mít replikační faktor 3. Může být také nastaven na 1. Replikační faktor 5 funguje také v clusteru Hadoop. Nastavení výchozí hodnoty zvyšuje efektivitu clusteru a vyžaduje minimální hardware.
Zvýšení replikačního faktoru by zvýšilo hardwarový požadavek, protože úložiště dat se násobí replikačním faktorem.

5. Jaká je výchozí velikost datového bloku v Hadoopu a jak jej upravit?

Odpovědět :
Velikost bloku rozřeže / rozdělí data do bloků a uloží je do různých datových uzlů.
Ve výchozím nastavení je velikost bloku 128 MB (v Apache Hadoop) a můžeme upravit výchozí velikost bloku.
Upravit soubor hdfs-site.xml. Výchozí cesta je ve složce conf / folder instalačního adresáře Hadoop. změnit / přidat následující vlastnost v hdfs-site.xml:
dfs.block.size
134217728
Velikost bloku
velikost bloku v bajtech je 134 217 728 nebo 128 MB. Určete také velikost pomocí přípony (nerozlišují velká a malá písmena), jako je k (kilo-), m (mega-), g (giga-) nebo t (tera-) a nastavte velikost bloku v KB, MB, TB atd…

6.Jaký dlouhý klastr Hadoop by měl udržovat odstraněný soubor HDFS v adresáři odstranit / smetí?

Odpovědět :
Parametr „fs.trash.interval“ je parametr, který určuje, jak dlouho může systém HDFS udržet jakýkoli smazaný soubor v prostředí Hadoop a načíst odstraněný soubor.
Interval lze definovat pouze v minutách. Pro 2denní interval vyhledávání musíme specifikovat vlastnost v tekoucím formátu.
Upravte soubor core-site.xml a přidejte / upravte ho pomocí následující vlastnosti
fs.trash.interval
2880
Ve výchozím nastavení je interval vyhledávání 0, ale správce Hadoop může podle potřeby přidat / upravit výše uvedenou vlastnost.

7. Jaké jsou základní příkazy ke spuštění a zastavení démonů Hadoop?

Odpovědět :
Všechny příkazy ke spuštění a zastavení démonů uložených v sbin / složce.
./sbin/stop-all.sh - Zastavení všech démonů najednou.
hadoop-daemon.sh počáteční název uzlu
Hadoop-daemon.sh počáteční datový uzel
thread-daemon.sh, spusťte správce zdrojů
thread-daemon.sh, spusťte správce uzlů
mr-jobhistory-daemon.sh spusťte server historie

8.Jaká vlastnost je definovat přidělení paměti pro úkoly spravované YARN?

Odpovědět :
Vlastnost „arn.nodemanager.resource.memory-mb “musí být změněna / přidána, aby se změnilo přidělení paměti pro všechny úkoly, které spravuje YARN.
Určuje množství paměti RAM v MB. Datové uzly zabírají 70% skutečné paměti RAM, které mají být použity pro YARN. Datový uzel s 96 GB použije pro YARN 68 GB, zbytek RAM používá démon Data Node pro „Non-YARN-Work“
Upravte soubor „soubor příze.xml“ a přidejte / upravte následující vlastnost.
thread.nodemanager.resource.memory-mb
68608
Výchozí hodnota nite.nodemanager.resource.memory-mb je 8 192 MB (8 GB). Pokud mají datové uzly velkou kapacitu paměti RAM, musíme změnit hodnotu až na 70%, jinak ztrácíme paměť.

9. Jaká jsou doporučení pro změnu velikosti uzlu názvu?

Odpovědět :
Následující podrobnosti jsou doporučeny pro nastavení hlavního uzlu ve velmi počáteční fázi.
Procesory: Pro procesy stačí jeden procesor s 6 až 8 jádry.
Paměť RAM: Pro zpracování dat a úloh by server měl mít alespoň 24-96 GB RAM.
Úložiště: Protože v hlavním uzlu nejsou uložena žádná data HDFS. Jako místní úložiště můžete provést 1-2 TB
Protože je obtížné rozhodovat o budoucích pracovních zátěžích, navrhněte svůj klastr výběrem hardwaru, jako je CPU, RAM a paměť, kterou lze snadno upgradovat v průběhu času.

10. Jaké jsou výchozí porty v clusteru Hadoop?

Odpovědět :

Daemon Name	Výchozí číslo portu
Název uzlu.	50070
Datové uzly.	50075
Uzel sekundárního jména.	50090
Uzel Backup / Checkpoint.	50105
Sledování úloh.	50030
Sledování úloh.	50060

Doporučené články

Toto byl průvodce seznamem otázek a odpovědí na rozhovor Hadoop Cluster Interview, aby mohl kandidát snadno provést zásah do těchto otázek Hadoop Cluster Interview. Další informace naleznete také v následujících článcích -

Elasticsearch Interview Otázky a odpovědi-Top a nejužitečnější
9 Úžasné MapReduce Interview Otázky a odpovědi
8 Nejužitečnější průvodce otázkami rozhovoru s Big Data
ETL Interview Otázky a odpovědi byste měli vědět

Hadoop Cluster Interview Otázky a odpovědi - 10 nejužitečnějších

Obsah: