Úvod do Hadoop Tools

Nástroje Hadoop jsou rámec, který se používá ke zpracování velkého množství dat. Tato data jsou distribuována v klastru a probíhá distribuovaná výpočetní technika. Data jsou uložena v blocích o velikosti 128 MB a pro zpracování a dosažení výsledného výkonu je použita funkce Map Reduce. Mapy a Reduce byly tradičně psány v Javě, ale bylo těžké překonat dovednosti zdrojů pracujících v datovém skladu, protože s tím neměly zkušenosti. SQL je dobře známý a snadno použitelný, takže když jsme našli způsob, jak napsat SQL jako dotaz, který je převeden na Map and Reduce, byl založen Facebookem a později darován Apache, tento nástroj je známý jako Hive. Yahoo také přišel s nástrojem s názvem Pig, který je při spuštění převeden na Map Reduce, podobně máme Sqoop a Flume pro nástroje pro pohyb a vstřikování dat. HBase je systémový nástroj pro správu databází.

Vlastnosti Hadoop Tools

  1. Úl
  2. Prase
  3. Sqoop
  4. HBase
  5. Zookeeper
  6. Flume

Nyní uvidíme funkce se stručným vysvětlením.

1. Úl

Apache Hive byl založen Facebookem a později darován nadaci Apache, která je infrastrukturou datového skladu, usnadňuje psaní SQL jako Query s názvem HQL nebo HiveQL. Tyto dotazy jsou interně převedeny na úlohy Map Reduce a zpracování je prováděno pomocí distribuované výpočetní techniky Hadoop. Může zpracovávat data uložená v HDFS, S3 a všechna úložiště kompatibilní s Hadoop. Můžeme využít zařízení, která poskytuje Map Reduce, kdykoli zjistíme, že je obtížné implementovat do Úlu implementací do funkcí definovaných uživatelem. Umožňuje uživateli zaregistrovat UDF a použít je v úlohách.

Vlastnosti Úlu

  • Podregistr může zpracovat mnoho typů formátů souborů, jako je Sequence File, ORC File, TextFile atd.
  • Pro rychlejší provedení jsou k dispozici oddíly, bucketing a indexování.
  • Komprimovaná data lze také načíst do tabulky podregistrů.
  • Spravované nebo interní tabulky a externí tabulky jsou hlavní rysy Úlu.

2. Prase

Yahoo vyvinul Apache Pig, aby měl další nástroj k posílení Hadoop tím, že má ad-hoc způsob implementace Map Reduce. Pig má motor nazvaný Pig Engine, který převádí skripty na Map Reduce. Pig je skriptovací jazyk, skripty psané pro Pig jsou v PigLatinu, stejně jako zde zde existuje Úl, abychom mohli vylepšit funkčnost UDF. Úkoly v prase jsou automaticky optimalizovány, takže si programátoři nemusí dělat starosti. Prasečí kliky zpracovává strukturovaná i nestrukturovaná data.

Vlastnosti hotelu Pig

  • Uživatelé mohou mít své vlastní funkce pro provádění zvláštního typu zpracování dat.
  • Je snadné psát kódy v Pig poměrně, také délka kódu je menší.
  • Systém může automaticky optimalizovat provádění.

3. Sqoop

Sqoop se používá k přenosu dat z HDFS do RDBMS a naopak. Můžeme vytáhnout data do HDFS z RDBMS, Hive atd. A můžeme je zpracovat a exportovat zpět do RDBMS. Můžeme připojit data mnohokrát v tabulce také můžeme vytvořit Sqoop úlohu a provést ji 'n' kolikrát.

Vlastnosti hotelu Sqoop

  • Sqoop dokáže importovat všechny tabulky najednou do HDFS.
  • Můžeme vkládat dotazy SQL a podmínky pro import dat.
  • Pokud existuje tabulka z HDFS, můžeme importovat data do podregistru.
  • Počet mapovačů může být řízen, tj. Paralelní provádění může být řízeno určením počtu mapovačů.

4. HBase

Systém správy databází na vrcholu HDFS se nazývá HBase. HBase je databáze NoSQL, která je vyvinuta na vrcholu HDFS. HBase není relační databáze, nepodporuje strukturované dotazovací jazyky. HBase využívá distribuované zpracování HDFS. Může mít velké tabulky s miliony a miliony záznamů.

Vlastnosti HBase

  • HBase poskytuje škálovatelnost jak lineární, tak i modulární.
  • Pro přístup klientů lze použít API v JAVA.
  • HBase poskytuje prostředí pro provádění dotazů.

5. Zookeeper

Apache Zookeeper je centralizovaná služba pro správu konfigurace, udržuje záznamy informací, pojmenovává, poskytuje také distribuovanou synchronizaci a skupinové služby. Zookeeper je centralizované úložiště, které distribuované aplikace využívají k ukládání a získávání dat. Pomáhá také při správě uzlů, tj. Připojit se nebo opustit uzel v klastru. Poskytuje vysoce spolehlivý datový registr, když je několik uzlů vypnuto.

Vlastnosti hotelu Zookeeper

  • Výkon lze zvýšit distribucí úkolů, které jsou dosaženy přidáním dalších strojů.
  • Skrývá složitost distribuce a zobrazuje se jako jediný stroj.
  • Selhání několika systémů neovlivní celý systém, ale jeho nevýhodou může být částečná ztráta dat.
  • Poskytuje atomicitu, tj. Transakce je buď úspěšná nebo neúspěšná, ale ne v nedokonalém stavu.

6. Flume

Apache Flume je nástroj, který poskytuje příjem dat, který může shromažďovat, agregovat a přenášet velké množství dat z různých zdrojů na HDFS, HBase atd. Flume je velmi spolehlivý a lze jej nakonfigurovat. Byl navržen pro přijímání datových proudů z webového serveru nebo dat událostí do HDFS, např. Může přijímat twitterová data do HDFS. Aplikace Flume může ukládat data do kteréhokoli z centralizovaných datových úložišť, jako je HBase / HDFS. Pokud je situace, kdy je produkce dat vyšší, než rychlost dat, lze zapisovat, pak flume funguje jako prostředník a zajišťuje plynulý tok dat.

Vlastnosti Flume

  • Může přijímat data webových serverů spolu s daty událostí, jako jsou například data ze sociálních médií.
  • Transakce typu Flume jsou založeny na kanálech, tj. Udržují se dvě zprávy, jedna pro odeslání a druhá pro příjem.
  • Horizontální škálování je možné v záblesku.
  • Je velmi chybné tolerantní, protože kontextové směrování je přítomno v záblesku.

Závěr - Hadoop Tools

V tomto článku jsme se dozvěděli o několika nástrojích Hadoop a o tom, jak jsou užitečné ve světě dat. Viděli jsme Hive and Pig, které se používá k dotazování a analýze dat, k přesunu dat a flume k přijímání datových proudů do HDFS.

Doporučené články

Toto byl průvodce Hadoop Tools. Zde diskutujeme různé nástroje Hadoopu s jejich vlastnostmi. Další informace naleznete také v dalších navrhovaných článcích -

  1. Hadoop Alternativy
  2. Hadoop databáze
  3. Funkce SQL String
  4. Co je Big Data

Kategorie: