Úvod do otázek a odpovědí na rozhovor Hadoop Admin

Takže jste konečně našli svou vysněnou práci v Hadoop Admin, ale přemýšlíte, jak rozbít Hadoop Admin Interview a jaké by mohly být pravděpodobné Hadoop Admin Interview otázky. Každý rozhovor je jiný a rozsah práce je také jiný. S ohledem na tuto skutečnost jsme navrhli nejčastější dotazy a odpovědi týkající se rozhovoru Hadoop Admin, které vám pomohou dosáhnout úspěchu v rozhovoru.

Níže jsou uvedeny otázky týkající se rozhovoru s administrátorem Hadoop, které vám pomohou při rozbití rozhovoru s Hadoopem.

1. Co je povědomí o stojanu? A proč je to nutné?

Odpovědět:
Povědomí o racku je o distribuci datových uzlů do více stojanů. HDFS sleduje algoritmus povědomí o racku a umisťuje datové bloky. Stojan obsahuje více serverů. A pro klastr by mohlo existovat více stojanů. Řekněme, že existuje cluster Hadoop s 12 uzly. Na každém by mohly být 3 stojany se 4 servery. Všechny 3 stojany jsou spojeny tak, že je připojeno všech 12 uzlů a tvoří klastr. Při rozhodování o počtu stojanů je důležité zvážit faktor replikace. Pokud existuje 100 GB dat, která budou proudit každý den s replikačním faktorem 3. Pak je to 300 GB dat, která budou muset být umístěna v klastru. Lepší možností je replikace dat napříč stojany. I když některý uzel klesne, replika bude v jiném stojanu.

2. Jaká je výchozí velikost bloku a jak je definována?

Odpovědět:
128 MB a je definována v hdfs-site.xml a také to je přizpůsobitelné v závislosti na objemu dat a úrovni přístupu. Řekněme, že 100 GB dat tekou za den, data se segregují a ukládají v klastru. Jaký bude počet souborů? 800 souborů. (1024 * 100/128) (1024 à převedeno GB na MB.) Existují dva způsoby, jak nastavit velikost bloku dat přizpůsobení.

  1. hadoop fs -D fs.local.block.size = 134217728 (v bitech)
  2. Do souboru hdfs-site.xml přidejte tuto vlastnost à block.size s velikostí bitů.

Pokud změníte výchozí velikost na 512 MB, protože velikost dat je velká, budou generovány soubory no.of 200. (1024 * 100/512)

3. Jak získáváte zprávu o systému souborů hdfs? O dostupnosti disku a ne. Aktivních uzlech?

Odpovědět:
Příkaz: sudo -u hdfs dfsadmin –report

Toto je seznam informací, které zobrazuje,

  1. Konfigurovaná kapacita - Celková kapacita dostupná v hdfs
  2. Současná kapacita - Toto je celkové množství prostoru vyhrazeného pro zdroje, které mají být umístěny vedle metastoru a fsimage využití prostoru.
  3. Zbývající DFS - Jedná se o množství úložného prostoru, který je stále k dispozici pro HDFS pro uložení více souborů
  4. Použitý DFS - Jedná se o úložný prostor, který využívá systém HDFS.
  5. Použitý DFS% - v procentech
  6. Pod replikovanými bloky - počet bloků
  7. Bloky s poškozenými replikami - Pokud jsou poškozené bloky
  8. Chybějící bloky
  9. Chybějící bloky (s replikačním faktorem 1)

4. Co je vyvažovač Hadoop a proč je to nutné?

Odpovědět:
Data šířená po uzlech nejsou distribuována ve správném poměru, což znamená, že využití každého uzlu nemusí být vyvážené. Jeden uzel může být příliš využíván a druhý může být nedostatečně využíván. To vede k vysokému nákladovému efektu při běhu jakéhokoli procesu a nakonec by to běželo při intenzivním využívání těchto uzlů. K vyřešení tohoto problému se používá balancer Hadoop, který vyvažuje využití dat v uzlech. Takže kdykoli je spuštěn balancer, data se přesouvají, kde se zaplní nedostatečně využívané uzly a nadužívané uzly budou uvolněny.

5. Rozdíl mezi Clouderou a Ambari?

Odpovědět:

Cloudera ManagerAmbari
Administrační nástroj pro ClouderuAdministrační nástroj pro Hortonovy práce
Monitoruje a spravuje celý cluster a hlásí využití a případné problémyMonitoruje a spravuje celý cluster a hlásí využití a případné problémy
Dodává se s placenou službou ClouderaOtevřený zdroj

6. Jaké jsou hlavní akce administrátora Hadoop?

Odpovědět:
Monitorovat stav klastru - Existuje mnoho stránek aplikací, které je třeba monitorovat, pokud běží nějaké procesy. (Server historie úloh, správce zdrojů YARN, správce Cloudera / ambary v závislosti na distribuci)

zapněte zabezpečení - SSL nebo Kerberos

Vyladění výkonu - balancer Hadoop

Podle potřeby přidejte nové datové uzly - změny a konfigurace infrastruktury

Volitelné zapnutí MapReduce Tracking Server Tracking Server à Někdy restartování služeb pomůže uvolnit paměť cache. To je, když klastr s prázdným procesem.

7. Co je Kerberos?

Odpovědět:
K provedení procesu je vyžadováno ověření pro každou službu, která se synchronizuje. Doporučuje se povolit Kerberos. Protože se zabýváme distribuovaným výpočtem, je vždy dobré mít šifrování při přístupu k datům a jejich zpracování. Protože jsou všechny uzly spojeny a jakýkoli informační tok prochází sítí. Protože Hadoop používá Kerberos, hesla se neposílají přes sítě. Místo toho se k výpočtu šifrovacích klíčů používají hesla. Zprávy jsou vyměňovány mezi klientem a serverem. Jednoduše řečeno, Kerberos si navzájem poskytuje identitu (uzly) bezpečným způsobem se šifrováním.

Konfigurace v jádru site.xml
Hadoop.security.authentication: Kerberos

8. Jaký je důležitý seznam příkazů hdfs?

Odpovědět:

PříkazyÚčel
hdfs dfs –lsSeznam souborů ze souborového systému hdfs.
Hdfs dfs –putZkopírujte soubor z lokálního systému do souborového systému hdfs
Hdfs dfs –chmod 777Dejte souboru oprávnění ke čtení, zápisu a spuštění
Hdfs dfs --getZkopírujte soubor ze souborového systému hdfs do místního souborového systému
Hdfs dfs –catZobrazte obsah souboru ze systému souborů hdfs
Hdfs dfs –rmOdeberte soubor ze systému souborů hdfs. Bude však přesunuta do cesty k koši (je to jako koše v systému Windows)
Hdfs dfs –rm –skipTrashOdstraní soubor trvale z clusteru.
Hdfs dfs –touchzVytvořte soubor v souborovém systému hdfs

9. Jak zkontrolovat protokoly úlohy Hadoop zadané v klastru a jak ukončit již spuštěný proces?

Odpovědět:
historky příze –applicationId - Master aplikace generuje protokoly na svém kontejneru a připojí se k ID, které generuje. To je užitečné pro sledování stavu běhu procesu a informací z protokolu.

thread application –kill - Pokud je třeba ukončit existující proces, který byl spuštěn v klastru, použije se příkaz kill, pokud se k ukončení úlohy v klastru použije ID aplikace.

Doporučený článek

Toto byl průvodce seznamem otázek a odpovědí Hadoop Admin Interview, aby mohl uchazeč tyto otázky Hadoop Admin Interview snadno zablokovat. Další informace naleznete také v následujících článcích

  1. Hadoop Cluster Interview Otázky a odpovědi - 10 nejužitečnějších
  2. Rozhovory s otázkami modelování dat - 10 důležitých otázek
  3. Otázky systému Interview systému SAS - Top 10 užitečných otázek

Kategorie: