Příkaz HDFS - Základní pro pokročilé příkazy s tipy a triky

Obsah:

Anonim

Úvod do příkazů HDFS

Big data je slovo pro datové sady, které jsou tak obrovské nebo složité, že běžný aplikační software pro zpracování dat nestačí k tomu, aby s nimi bylo uzavřeno. Hadoop je otevřený zdrojový programovací rámec založený na Javě, který zřetězuje prostor pro zpracování a ukládání enormně objemných datových souborů v rozšířeném výpočetním prostředí. Softwarová nadace Apache je klíčem k instalaci Hadoop

Vlastnosti HDFS:

  • HDFS běží na architektuře Master / Slave
  • HDFS používá soubory k ukládání uživatelských dat
  • obsahuje obrovskou sadu adresářů a souborů, které jsou uloženy v hierarchickém formátu.
  • Zevnitř je soubor roztržen do menších bloků a tyto bloky jsou uloženy v sadě Datanodes.
  • Namenode a Datanode jsou část softwaru určeného ke spuštění na strojích produktů, které klasicky běží na operačním systému GNU / Linux.

Namenode:

  • Zde je souborový systém udržován jmenným uzlem
  • Namenode je také zodpovědný za protokolování všech změn systému souborů, navíc udržuje obraz úplného jmenného prostoru souborového systému a souboru Blockmap v paměti
  • Kontrolní stanovování se provádí pravidelně. proto lze snadno obnovit do fáze před tím, než lze dosáhnout bodu nárazu.

Datanode:

  • Datanode poskytuje data v souborech v místním systému souborů
  • Aby bylo možné intimizovat jeho existenci, datový uzel pošle tep do namenodu
  • Pro každý přijatý 10. tep bude vygenerována bloková zpráva
  • Replikace se implikuje na data uložená v těchto datových uzlech

Replikace dat:

  • Sekvence bloků zde tvoří soubor s výchozí velikostí bloků 128 MB
  • Všechny bloky v souboru kromě finále mají podobnou velikost.
  • Z každého datového uzlu v klastru obdrží prvek namenode tep
  • BlockReport obsahuje všechny bloky v Datanode.
  • obsahuje obrovskou sadu adresářů a souborů, které jsou uloženy v hierarchickém formátu.
  • Zevnitř je soubor roztržen do menších bloků a tyto bloky jsou uloženy v sadě Datanodes.
  • Namenode a Datanode jsou část softwaru určeného ke spuštění na strojích produktů, které klasicky běží na operačním systému GNU / Linux.

Sledování úloh: JobTracker debatuje s NameNode a uzavírá pozici dat. Vyhledejte také nejlepší uzly TaskTracker pro provádění úkolů na základě datové lokality

Sledovač úloh: TaskTracker je uzel v klastru, který přijímá úkoly - operace Map, Reduce a Shuffle - z JobTracker.

Uzel sekundárního názvu (nebo) kontrolní bod: Získává EditLog z uzlu jména v pravidelných intervalech a aplikuje se na jeho obraz FS. A během jeho restartování zkopíruje zpět hotový obraz FS do uzlu s názvem. Celým účelem uzlu sekundárního jména je mít kontrolní bod v HDFS.

YARN:

  • YARN má komponentu centrálního správce zdrojů, která řídí zdroje a přiřazuje zdroje každé aplikaci.
  • Zde je Správce prostředků master, který rozhoduje o prostředcích spojených s klastrem, správce prostředků je stočený ze dvou komponent, správce aplikací a plánovač, které tyto dvě komponenty společně spravují úlohy v klastrových systémech. další komponenta volá Správce uzlů (NM), který je zodpovědný za správu úloh uživatelů a pracovního postupu v daném uzlu.
  • Přesnou replikaci dat v aktivním namenodu provádí Standby NameNode. Funguje jako otrok, udržuje dostatek stavu, aby zajistil rychlé převzetí služeb při selhání, pokud je to nezbytné.

Základní příkazy HDFS:

Základní příkazy HDFS

Sr.NeVlastnost příkazu HDFSPříkaz HDFS
1Tisk verze hadoopu$ hadoop verze
2Vypište obsah kořenového adresáře v systému HDFS$ hadoop fs -ls
3Reportujte množství využitého a dostupného místa v aktuálně připojeném souborovém systému$ hadoop fs -df hdfs: /
4Vyvažovač HDFS znovu vyrovnává data napříč datovými uzly, přesouvá bloky z příliš využívaných do nedostatečně využívaných uzlů.$ hadoop balancer
5Příkaz nápovědy$ hadoop fs -help

Intermediate HDFS příkazy:

Zprostředkující příkazy HDFS

Sr.NeVlastnost příkazu HDFSPříkaz HDFS
6vytvoří adresář v zadaném umístění HDFS$ hadoop fs -mkdir / user / cloudera /
7Zkopíruje data z jednoho místa na druhé$ hadoop fs -put data / sample.txt / user / training / hadoop
8Podívejte se na prostor, který zabírá konkrétní adresář v HDFS$ hadoop fs -du -s -h / uživatel / cloudera /
9Odstraňte adresář v Hadoopu$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Odstraní všechny soubory v daném adresáři$ hadoop fs -rm -skipTrash hadoop / maloobchod / *
11Vyprázdnění koše$ hadoop fs -expunge
12kopíruje data z a na místní do HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Pokročilé příkazy HDFS:

Zprostředkující příkazy HDFS

Sr.NeVlastnost příkazu HDFSPříkaz HDFS
13změnit oprávnění souboru$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14nastavit faktor replikace dat pro soubor$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15Spočítejte počet adresářů, souborů a bytů v hdfs$ hadoop fs -count hdfs: /
16aby namenode existoval v bezpečném režimu$ sudo -u hdfs hdfs dfsadmin -safemode dovolenou
17Hadoop naformátuje namenode$ hadoop namenode -format

HDFS Tipy a triky:

1) Můžeme dosáhnout rychlejší obnovy, když je počet uzlů clusteru vyšší.

2) Zvýšení úložiště za jednotku času zvyšuje dobu zotavení.

3) Namenode hardware musí být velmi spolehlivý.

4) Sofistikované monitorování lze dosáhnout pomocí ambari.

5) Hladování systému lze snížit zvýšením počtu reduktorů.

Doporučené články

Toto byl průvodce příkazy HDFS. Zde jsme diskutovali HDFS příkazy, funkce, základní, střední a pokročilé příkazy s obrázkovou reprezentací, tipy a triky o příkazech. Další informace naleznete také v dalších navrhovaných článcích -

  1. Příkazy uzlu
  2. Příkazy Matlab
  3. Výhody DBMS
  4. Hadoop Ekosystém
  5. Hadoop fs Příkazy