Úvod do alternativ úlu

Než budeme diskutovat o alternativách HIVE. Pojďme nejprve pochopit, co je ÚP? HIVE je tedy v podstatě nástroj pro ukládání dat, který je vyvinut na vrcholu HDFS (Hadoop Distributed File System). Používá se pro poskytnutí dotazovacího rozhraní typu SQL dotazu na data, která jsou uložena v různých souborech integrovaných s Hadoop. Převádí dotazy typu SQL na úlohy Map Reduce, které pomáhají při snadném provádění velkých objemů dat.

Funkce

Níže jsou uvedeny některé rysy Úlu:

  • Stejně jako SQL má svůj vlastní deklarativní jazyk s názvem HiveQL.
  • Má strukturu tabulky podobnou tabulkám v relační databázi a poskytuje také podporu ETL (extrakt / podpora / načtení).
  • Zajímavé je, že umožňuje převod formátu z HIVE.

Omezení alternativ úlu

Dejme vědět několik omezení Úlu:

  • Není určen pro OLTP (online transakční zpracování), ale podporuje OLAP (online analytické zpracování).
  • Jedním důležitým omezením je, že nepodporuje aktualizace a mazá.
  • V podregistrech Úlu také nejsou podporovány.

5 Důležité alternativy úlu

Níže budeme diskutovat o pěti důležitých alternativách HIVE přítomných na trhu:

1. Apache Impala

Jedná se o open-source paralelní zpracování SQL dotazovacího stroje pro data uložená v klastru počítače se systémem Apache Hadoop. To bylo oznámeno v roce říjen 2012. Níže jsou uvedeny hlavní rysy Apache Impala jako alternativa k HIVE.

  • Impala je dobrá volba pro lidi, kteří používají dotazy SQL na Hadoop a Apache HBase bez transformace dat, protože na rozdíl od HIVE není nutné data transformovat nebo přesouvat.
  • Další rozdíl mezi těmito dvěma je generování dotazových výrazů. Impala je generuje za běhu pomocí llvm, zatímco HIVE je generuje v době kompilace.
  • Hive Queries má problém studeného startu, což není případ dotazů Impala, protože v Impala démona procesy jsou spouštěny v samotném bootovacím čase, vždy připraveny ke zpracování dotazu, díky kterému se vyhýbá problému studeného startu.
  • Impala rozpoznává formáty souborů Hadoop, zabezpečení Hadoop, ovladač ODBC.
  • Hlavní USP impaly je hrubá síla paralelního zpracování. Impala je tedy lepší alternativou, pokud někdo začíná nový projekt.

2. Presto DB

Presto je další alternativou pro HIVE vyvinutou facebookem. Jeho USP je to, že může dokonce dotazovat data z více zdrojů v rámci jednoho dotazu. Níže jsou hlavní rysy PrestoDB jako alternativy k HIVE.

  • Presto je distribuovaný dotazovací stroj SQL v paměti, který je také velmi rychlý, protože dotazovací stroj Presto je rychlý a vhodný pro interaktivní analýzu.
  • USP pro Presto před ostatními je jeho plug and play model s různými zdroji dat. Díky tomuto modelu plug and play je spojení dotazů napříč různými zdroji dat velmi snadné.
  • V Presto byly tabulky malých rozměrů zrychleny. Presto vyniká u většiny ostatních distribuovaných dotazovacích strojů.
  • Program Presto není vhodný pro velké spojování, protože nevyužívá disk a nevyužívá paměti ke zpracování.
  • Dalším důležitým bodem programu presto je přidělování zdrojů. Má přidělování zdrojů na základě prioritní fronty.
  • Jedním kompromisem pro dobrý výkon v programu Presto je, že podpora UDF není k dispozici v rámci programu Presto, kvůli kterému je třeba psát vlastní funkci, která zvyšuje režii, protože musí být postavena výhradně pro program Presto a brání interoperabilitě.

3. Spark SQL

Je to modul pro strukturované zpracování dat a také open-source. Může také fungovat jako distribuovaný dotazovací stroj SQL a také jeho jedinečnou součástí je programovací abstrakce známá jako datové rámce. Poprvé vyšlo v roce 2014 vyvinutým Apache Software Foundation. Níže jsou uvedeny některé hlavní rysy Spark SQL jako alternativa k HIVE.

  • Dobrá věc na Spark SQL je, že může být implementována v jazycích Java, Scala, Python a R, zatímco HIVE může být implementován v jazyce Java.
  • V primárním databázovém modelu existuje úplná podobnost mezi HIVE a Spark, protože u obou primárních databázových modelů je relační DBMS.
  • Podobá se také HIVE, protože oba podporují úložiště klíč-hodnota jako další databázový model.
  • Má předdefinované datové typy, jako je float a date.
  • Podporuje SQL, protože má příkazy DML a DDL.
  • Na rozdíl od HIVE, který podporuje JDBC, ODBC a Thrift, Spark SQL podporuje pouze JDBC a ODBC.
  • Spark SQL používá jádro jiskry pro ukládání dat do různých uzlů.
  • Dalším velkým rozdílem mezi jiskrou a HIVE jsou replikační metody: V HIVE je selektivní replikační faktor pro ukládání redundantních dat na více uzlech, ale ve Spark SQL není k dispozici žádný replikační faktor.
  • Ve Spark SQL neexistují žádná přístupová práva pro uživatele, zatímco v Apache Hive máme přístupová práva pro uživatele, skupiny.
  • Nepodporuje transakční tabulku a žádnou podporu pro typ char.

4. Žralok

Je to open-source SQL dotazovací stroj, který je napsán v Scale. Zajímavým faktem Shark je namísto toho, aby Map-Reduce používal k provádění svých dotazů, používá vlastní sady pracovních uzlů. Níže jsou uvedeny některé rysy Shark:

  • Používá klienta příkazového řádku.
  • Nabízí interoperabilitu s Hive pro sdílení schémat.
  • Poskytuje podporu pro stávající rozšíření podregistrů, jako jsou UDF.

Zatím to není moc slavné, ale poskytuje alternativu k HIVE.

5. BigSQL od IBM

Poskytuje je společnost Big Blue (IBM). IBM má vlastní distribuci Hadoop s názvem Big Insights. Jako součást toho je nabízen Big SQL. Nejedná se o otevřený zdroj, který poskytuje IBM. Některé z věcí, které poskytují, jsou níže:

  • Podporují ovladače JDBC i OJDBC.
  • Poskytují podporu SQL
  • Mohou být použity k dotazování dat z HDFS.

Doporučené články

Toto je průvodce alternativami Úlu. Zde diskutujeme funkce, omezení a 5 důležitých alternativ úlu. Další informace naleznete také v dalších souvisejících článcích.

  1. Hadoop Alternativy
  2. Tableau Alternativy
  3. Alternativy Google Analytics
  4. Hadoop Streaming
  5. Hive Order By
  6. Instalace podregistru
  7. Datové rámce v R

Kategorie: