Co je Úl?

Apache Hive je systém datových skladů navržený na open source platformě Hadoop a používá se pro sumarizaci dat, dotazování velkých dat, analýzu dat atd.

Úl byl vyvinut společností Facebook a později jej převzal Apache Software Foundation, který jej dále vyvinul jako open source pod názvem Apache Hive.

Definice:

Nejedná se o relační databázi, a proto není vhodný pro online zpracování transakcí a dotazy v reálném čase s aktualizacemi na úrovni řádků. Úl je určen pro online analytické zpracování nebo OLAP. Poskytuje také dotazovací jazyk s názvem HiveQL. Je škálovatelný, rychlý a rozšiřitelný. Převádí dotazy, které vypadají téměř jako SQL, na úlohy MapReduce pro snadné provádění a zpracování velkého množství dat. Úl Apache je jednou z komponent Hadoop, které běžně používají analytici dat, zatímco apache prase se používá také pro stejný úkol, ale je více využíváno výzkumníky a programátory. Úl Apache jako otevřený zdrojový datový skladovací systém se používá k dotazování a analýze obrovských datových sad uložených v úložišti Hadoop. Úl se nejlépe hodí pro dávkové úlohy a ne pro pracovní typy zpracování transakcí online. Také nepodporuje dotazy v reálném čase. Úl používá jazyk SQL jako dotazovací jazyk a používá se hlavně pro vytváření sestav. Úl je obvykle nasazen na straně serveru a podporuje strukturovaná data. Hive také podporuje integraci s nástroji JDBC a BI.

Porozumění Úlu:

Níže jsou uvedeny hlavní složky úlu:

Meta Store:

Úložiště, ve kterém jsou uložena metadata, se nazývá meta úložiště úlů. Metadata se skládají z různých dat o tabulkách, jako je umístění, schéma, informace o oddílech, které pomáhají sledovat různě distribuovaný průběh dat v klastru. Sleduje také data a replikuje data, která poskytují zálohu v případě nouze, jako je ztráta dat. Informace o metadatech jsou přítomna v relačních databázích a nikoli v systému souborů Hadoop.

Řidič:

Při provádění příkazu jazyka dotazu podregistru ovladač obdrží příkaz a řídí jej pro celý prováděcí cyklus. Spolu s provedením příkazu ovladač také ukládá metadata generovaná z provedení. Vytváří také relace pro sledování průběhu a životního cyklu různých poprav. Po dokončení operace redukce pomocí úlohy MapReduce shromažďuje ovladač všechna data a výsledky dotazu

Kompilátor:

Používá se pro překlad jazyka dotazu Hive do vstupu MapReduce. Vyvolává metodu, která provádí kroky a úkoly, které jsou potřebné ke čtení výstupu HiveQL podle potřeby MapReduce.

Optimalizátor:

Hlavním úkolem optimalizátoru je zlepšení účinnosti a škálovatelnosti vytvoření úlohy při transformaci dat před operací redukce. Provádí také transformace, jako je agregace, konverze potrubí jediným spojením pro více připojení.

Vykonavatel:

Po kompilaci a optimalizaci je hlavním úkolem vykonavatele úkoly. Hlavním úkolem exekutora je komunikovat s Hadoop job trackerem pro plánování úkolů připravených ke spuštění.

UI, server Thrift a CLI:

Thrift server používají ostatní klienti k interakci s Hive engine. Uživatelské rozhraní a rozhraní příkazového řádku pomáhá odesílat dotazy, sledovat procesy a pokyny, aby externí uživatelé mohli s úlem spolupracovat.

Níže jsou uvedeny kroky ukazující interakci úlu s rámcem Hadoop:

Provedení dotazu:

Dotaz je do ovladače odeslán z rozhraní podregistru, jako je příkazový řádek nebo webové uživatelské rozhraní. Ovladačem může být jakýkoli ovladač databáze, jako je JDB nebo ODBC atd.

Získání plánu:

Syntaxe pro požadavek dotazu nebo plánu dotazů lze zkontrolovat pomocí kompilátoru dotazů, který prochází dotazem a je vyvolán ovladačem.

Získání metadat:

Úložiště metadat může být uloženo v jakékoli databázi a kompilátor podá žádost o přístup k metadatům.

Odesílání metadat:

Na žádost kompilátoru odešle metadata metadata.

Odeslání plánu:

Kompilátor odešle plán řidiči při ověření požadavků zaslaných kompilátorem. Tento krok dokončí analýzu a kompilaci dotazu.

Provádění plánu:

Realizační plán je odeslán do prováděcího motoru řidičem.

Provádění úlohy:

Provádění úlohy je úloha MapReduce, která běží v koncovém zařízení. Potom následuje obvyklý konvenční rámec Hadoop - prováděcí modul pošle úlohu sledovači úloh, který sídlí v uzlu názvu, a uzel názvu zase přidělí úlohu sledovači úloh, který je v datové poznámce. Zde se provádí úloha MapReduce.

Metadata ops:

Při provádění úlohy může prováděcí stroj provádět metadatové operace s úložištěm metadat.

Načítání výsledku:

Datové uzly po dokončení zpracování předají výsledek do prováděcího motoru.

Odeslání výsledku

Řidič obdrží výsledek z prováděcího motoru.

Výsledek odeslání:

Nakonec rozhraní Hive obdrží výsledek od ovladače.

Provedením výše uvedených kroků tedy dojde k úplnému provedení dotazu v Úlu.

Jak usnadňuje úl práci?

Hive je rámec pro ukládání dat postavený na Hadoopu, který pomáhá uživateli provádět analýzu dat, dotazování na data a sumarizaci dat na velkých objemech datových sad. HiveQL je jedinečná funkce, která vypadá jako data SQL uložená v databázi a provádí rozsáhlou analýzu. Byl jsem schopen číst data velmi vysokou rychlostí a zapisovat je do datových skladů a také spravovat velké datové sady distribuované na více místech. Spolu s tímto úlem také poskytuje strukturu dat uloženým v databázi a uživatelé se mohou připojit k úlu pomocí nástroje příkazového řádku nebo ovladače JDBC.

Nejlepší společnosti:

Hlavní organizace pracující s velkými daty používaly úl - jako facebook, Amazon, Walmart a mnoho dalších.

Co můžete dělat s Úlem?

Existuje mnoho funkcí úlu, jako je dotaz na data, shrnutí údajů a analýza dat. Podregistr podporuje dotazovací jazyk s názvem HiveQL nebo Hive Query Language. Dotazy jazyka Hive dotazu jsou přeloženy do úlohy MapReduce, která je zpracována v klastru Hadoop. Kromě toho Hiveql také redukuje skript, který lze přidat do dotazů. Tímto způsobem HiveQL zvyšuje flexibilitu návrhu schématu, což také podporuje deserializaci a serializaci dat.

Práce s Úl:

Níže jsou uvedeny některé provozní podrobnosti v Úlu. Datové typy úlu jsou široce klasifikovány do čtyř typů, jak je uvedeno níže:

  • Typy sloupců
  • Literály
  • Nulové hodnoty
  • Složité typy

1. Typy sloupců:

Toto jsou sloupcové datové typy úlu. Tito jsou klasifikováni jak dole:

  • Integrální typy: Celá data jsou reprezentována pomocí integrovaného datového typu. Symbol je INT. Jakákoli data překračující horní limit INT musí být přiřazena datovému typu BIGINT. Stejným způsobem je třeba přiřadit všechna data pod spodní hranicí INT SMALLINT. Existuje další datový typ nazvaný TINYINT, který je ještě menší než SMALLINT.
  • Typy řetězců: Typ dat řetězce je v úlu reprezentován jednoduchou uvozovkou (') nebo dvojitými uvozovkami (“). Může být dvou typů - VARCHAR nebo CHAR.
  • Timestamp: Časové razítko Hive podporuje formát java.sql.Timestamp „rrrr-mm-dd hh: mm: ss.ffffffffff“ a formát „YYYY-MM-DD HH: MM: SS.fffffffff“.
  • Datum: Datum je zastoupeno v úlu ve formátu RRRR-MM-DD představující rok-měsíc-den.
  • Decimals : Decimals v úlu je reprezentován v java velkém desetinném formátu a je používán reprezentovat neměnnou libovolnou přesnost. Je reprezentován ve formátu Decimal (přesnost, měřítko).
  • Typy unie: Unie se používá v úlu k vytvoření kolekce heterogenního datového typu. Lze jej vytvořit pomocí vytvoření unie.

Níže je uveden příklad:

UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)

2. Literály:

V úlu se používá jen málo literálů. Jsou to níže:

  • Typ s pohyblivou čárkou : Jsou reprezentovány jako čísla s desetinnou čárkou. Jsou velmi podobné dvojitému datovému typu.
  • Desítkový typ : Tento typ dat obsahuje pouze desetinná data, ale s vyšším rozsahem hodnoty s pohyblivou řádovou čárkou než typ dvojitého dat. Rozsah desetinného typu je přibližně -10 -308 až 10 308.

3. Nulová hodnota:

Speciální hodnota NULL představuje chybějící hodnoty v úlu.

4. Složité typy:

Níže jsou uvedeny různé komplexní typy nalezené v úlu:

  • Pole : Pole jsou zastoupena v úlu ve stejné podobě jako java. Syntaxe je jako ARRAY.
  • Mapy : Mapy jsou zobrazeny v úlu ve stejné podobě jako java. Syntaxe je jako MAP
  • .
  • Struktury : Struktury v úlu jsou reprezentovány jako komplexní data s komentáři. Syntaxe je jako STRUCT.

Kromě toho všeho můžeme vytvářet databáze, tabulky, dělit je a spoustu dalších funkcí.

  • Databáze: Jde o obory jmen, které obsahují kolekci tabulek. Níže je uvedena syntaxe pro vytvoření databáze v úlu.

CREATE DATABASE (IF NOT EXISTS) sampled;

Databázi lze také zrušit, pokud již nejsou potřeba. Níže je uvedena syntaxe pro přetažení databáze.

DROP DATABASE (IF EXISTS) sampled;

  • Tabulky: Mohou být také vytvořeny v úlu pro ukládání dat. Níže je uvedena syntaxe pro vytvoření tabulky.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)

Tabulka může být také zrušena, pokud již není potřeba. Níže je uvedena syntaxe pro zrušení tabulky.

DROP TABLE (IF EXISTS) table_name;

Výhody

Hlavní výhodou Apache Hive je dotazování, sumarizace a analýza dat. Úl je navržen pro lepší produktivitu vývojáře a také přichází s náklady na zvýšení latence a snížení účinnosti. Apache Hive poskytuje širokou škálu uživatelsky definovaných funkcí, které lze propojit s jinými balíčky Hadoop, jako jsou RHipe, Apache Mahout atd. Pomáhá vývojářům do značné míry při práci s komplexním analytickým zpracováním a více formáty dat. Používá se hlavně pro datové sklady, což znamená systém používaný pro reporting a analýzu dat.

Zahrnuje očištění, transformaci a modelování dat za účelem poskytnutí užitečných informací o různých obchodních aspektech, které pomohou při vytváření výhod pro organizaci. Analýza dat spoustu různých aspektů a přístupů, které zahrnují různé techniky s různými jmény v různých obchodních modelech, společenských vědách atd. Úl je uživatelsky přívětivý a umožňuje uživatelům simultánní přístup k datům, čímž se zvyšuje doba odezvy. Ve srovnání s jinými typy dotazů na obrovské soubory dat je doba odezvy úlu mnohem rychlejší než ostatní. Je také mnohem flexibilnější, pokud jde o výkon při přidávání dalších dat a zvyšováním počtu uzlů v klastru.

Proč bychom měli používat Úl?

Spolu s analýzou dat úl poskytuje širokou škálu možností pro ukládání dat do HDFS. Podregistr podporuje různé systémy souborů, jako je plochý soubor nebo textový soubor, soubor sekvencí sestávající z dvojic dvojic klíč-hodnota, soubory RC, které ukládají sloupec tabulky do sloupcové databáze. V současné době je soubor, který je pro Hive nejvhodnější, známý jako soubory ORC nebo Optimized Row Columnar.

Proč potřebujeme Úl?

V dnešním světě je Hadoop spojen s nejrozšířenějšími technologiemi, které se používají pro zpracování velkých dat. Velmi bohatá sbírka nástrojů a technologií, které se používají pro analýzu dat a další zpracování velkých dat.

Kdo je tím pravým publikem pro učení technologií Úlu?

Úli mohou ovládat hlavně lidé, kteří mají zázemí jako vývojáři, analytici Hadoop, správci systému, datové sklady, SQL profesionálové a administrace Hadoop.

Jak vám tato technologie pomůže v kariérním růstu?

Úl je v současnosti jednou z žhavých dovedností na trhu a je jedním z nejlepších nástrojů pro analýzu dat ve světě velkých dat Hadoop. Velké podniky provádějící analýzy na velkých souborech dat vždy hledají lidi s právy dovedností, takže mohou spravovat a dotazovat obrovské objemy dat. Úl je v posledních dnech jedním z nejlepších nástrojů dostupných na trhu s velkými datovými technologiemi, které mohou organizaci po celém světě pomoci s jejich analýzou dat.

Závěr:

Kromě výše uvedených funkcí má úl mnohem pokročilejší schopnosti. Díky schopnosti úlu zpracovat velké množství datových sad s velkou přesností je úl jedním z nejlepších nástrojů používaných pro analytiku ve velké datové platformě. Kromě toho má také velký potenciál, aby se v nadcházejících dnech objevil jako jeden z předních velkých analytických nástrojů pro analýzu dat, a to díky pravidelnému zlepšování a snadnému použití pro koncového uživatele.

Doporučené články

Toto byl průvodce Co je Úl. Zde jsme diskutovali o práci, dovednostech, kariérním růstu, výhodách Hive a špičkových společností, které tuto technologii implementují. Další informace naleznete také v dalších navrhovaných článcích -

  1. Příkazy úlu
  2. Hive Interview Otázky
  3. Co je Azure?
  4. Co je technologie velkých dat?
  5. Architektura úlu Definice
  6. Použití funkce OBJEDNÁVKA BY v Úlu

Kategorie: