Úvod do otázek a odpovědí na rozhovor Hadoop Admin
Takže jste konečně našli svou vysněnou práci v Hadoop Admin, ale přemýšlíte, jak rozbít Hadoop Admin Interview a jaké by mohly být pravděpodobné Hadoop Admin Interview otázky. Každý rozhovor je jiný a rozsah práce je také jiný. S ohledem na tuto skutečnost jsme navrhli nejčastější dotazy a odpovědi týkající se rozhovoru Hadoop Admin, které vám pomohou dosáhnout úspěchu v rozhovoru.
Níže jsou uvedeny otázky týkající se rozhovoru s administrátorem Hadoop, které vám pomohou při rozbití rozhovoru s Hadoopem.
1. Co je povědomí o stojanu? A proč je to nutné?
Odpovědět:
Povědomí o racku je o distribuci datových uzlů do více stojanů. HDFS sleduje algoritmus povědomí o racku a umisťuje datové bloky. Stojan obsahuje více serverů. A pro klastr by mohlo existovat více stojanů. Řekněme, že existuje cluster Hadoop s 12 uzly. Na každém by mohly být 3 stojany se 4 servery. Všechny 3 stojany jsou spojeny tak, že je připojeno všech 12 uzlů a tvoří klastr. Při rozhodování o počtu stojanů je důležité zvážit faktor replikace. Pokud existuje 100 GB dat, která budou proudit každý den s replikačním faktorem 3. Pak je to 300 GB dat, která budou muset být umístěna v klastru. Lepší možností je replikace dat napříč stojany. I když některý uzel klesne, replika bude v jiném stojanu.
2. Jaká je výchozí velikost bloku a jak je definována?
Odpovědět:
128 MB a je definována v hdfs-site.xml a také to je přizpůsobitelné v závislosti na objemu dat a úrovni přístupu. Řekněme, že 100 GB dat tekou za den, data se segregují a ukládají v klastru. Jaký bude počet souborů? 800 souborů. (1024 * 100/128) (1024 à převedeno GB na MB.) Existují dva způsoby, jak nastavit velikost bloku dat přizpůsobení.
- hadoop fs -D fs.local.block.size = 134217728 (v bitech)
- Do souboru hdfs-site.xml přidejte tuto vlastnost à block.size s velikostí bitů.
Pokud změníte výchozí velikost na 512 MB, protože velikost dat je velká, budou generovány soubory no.of 200. (1024 * 100/512)
3. Jak získáváte zprávu o systému souborů hdfs? O dostupnosti disku a ne. Aktivních uzlech?
Odpovědět:
Příkaz: sudo -u hdfs dfsadmin –report
Toto je seznam informací, které zobrazuje,
- Konfigurovaná kapacita - Celková kapacita dostupná v hdfs
- Současná kapacita - Toto je celkové množství prostoru vyhrazeného pro zdroje, které mají být umístěny vedle metastoru a fsimage využití prostoru.
- Zbývající DFS - Jedná se o množství úložného prostoru, který je stále k dispozici pro HDFS pro uložení více souborů
- Použitý DFS - Jedná se o úložný prostor, který využívá systém HDFS.
- Použitý DFS% - v procentech
- Pod replikovanými bloky - počet bloků
- Bloky s poškozenými replikami - Pokud jsou poškozené bloky
- Chybějící bloky
- Chybějící bloky (s replikačním faktorem 1)
4. Co je vyvažovač Hadoop a proč je to nutné?
Odpovědět:
Data šířená po uzlech nejsou distribuována ve správném poměru, což znamená, že využití každého uzlu nemusí být vyvážené. Jeden uzel může být příliš využíván a druhý může být nedostatečně využíván. To vede k vysokému nákladovému efektu při běhu jakéhokoli procesu a nakonec by to běželo při intenzivním využívání těchto uzlů. K vyřešení tohoto problému se používá balancer Hadoop, který vyvažuje využití dat v uzlech. Takže kdykoli je spuštěn balancer, data se přesouvají, kde se zaplní nedostatečně využívané uzly a nadužívané uzly budou uvolněny.
5. Rozdíl mezi Clouderou a Ambari?
Odpovědět:
Cloudera Manager | Ambari |
Administrační nástroj pro Clouderu | Administrační nástroj pro Hortonovy práce |
Monitoruje a spravuje celý cluster a hlásí využití a případné problémy | Monitoruje a spravuje celý cluster a hlásí využití a případné problémy |
Dodává se s placenou službou Cloudera | Otevřený zdroj |
6. Jaké jsou hlavní akce administrátora Hadoop?
Odpovědět:
Monitorovat stav klastru - Existuje mnoho stránek aplikací, které je třeba monitorovat, pokud běží nějaké procesy. (Server historie úloh, správce zdrojů YARN, správce Cloudera / ambary v závislosti na distribuci)
zapněte zabezpečení - SSL nebo Kerberos
Vyladění výkonu - balancer Hadoop
Podle potřeby přidejte nové datové uzly - změny a konfigurace infrastruktury
Volitelné zapnutí MapReduce Tracking Server Tracking Server à Někdy restartování služeb pomůže uvolnit paměť cache. To je, když klastr s prázdným procesem.
7. Co je Kerberos?
Odpovědět:
K provedení procesu je vyžadováno ověření pro každou službu, která se synchronizuje. Doporučuje se povolit Kerberos. Protože se zabýváme distribuovaným výpočtem, je vždy dobré mít šifrování při přístupu k datům a jejich zpracování. Protože jsou všechny uzly spojeny a jakýkoli informační tok prochází sítí. Protože Hadoop používá Kerberos, hesla se neposílají přes sítě. Místo toho se k výpočtu šifrovacích klíčů používají hesla. Zprávy jsou vyměňovány mezi klientem a serverem. Jednoduše řečeno, Kerberos si navzájem poskytuje identitu (uzly) bezpečným způsobem se šifrováním.
Konfigurace v jádru site.xml
Hadoop.security.authentication: Kerberos
8. Jaký je důležitý seznam příkazů hdfs?
Odpovědět:
Příkazy | Účel |
hdfs dfs –ls | Seznam souborů ze souborového systému hdfs. |
Hdfs dfs –put | Zkopírujte soubor z lokálního systému do souborového systému hdfs |
Hdfs dfs –chmod 777 | Dejte souboru oprávnění ke čtení, zápisu a spuštění |
Hdfs dfs --get | Zkopírujte soubor ze souborového systému hdfs do místního souborového systému |
Hdfs dfs –cat | Zobrazte obsah souboru ze systému souborů hdfs |
Hdfs dfs –rm | Odeberte soubor ze systému souborů hdfs. Bude však přesunuta do cesty k koši (je to jako koše v systému Windows) |
Hdfs dfs –rm –skipTrash | Odstraní soubor trvale z clusteru. |
Hdfs dfs –touchz | Vytvořte soubor v souborovém systému hdfs |
9. Jak zkontrolovat protokoly úlohy Hadoop zadané v klastru a jak ukončit již spuštěný proces?
Odpovědět:
historky příze –applicationId - Master aplikace generuje protokoly na svém kontejneru a připojí se k ID, které generuje. To je užitečné pro sledování stavu běhu procesu a informací z protokolu.
thread application –kill - Pokud je třeba ukončit existující proces, který byl spuštěn v klastru, použije se příkaz kill, pokud se k ukončení úlohy v klastru použije ID aplikace.
Doporučený článek
Toto byl průvodce seznamem otázek a odpovědí Hadoop Admin Interview, aby mohl uchazeč tyto otázky Hadoop Admin Interview snadno zablokovat. Další informace naleznete také v následujících článcích
- Hadoop Cluster Interview Otázky a odpovědi - 10 nejužitečnějších
- Rozhovory s otázkami modelování dat - 10 důležitých otázek
- Otázky systému Interview systému SAS - Top 10 užitečných otázek