Úvod do otázek a odpovědí na rozhovor Sqoop

Sqoop je open-source nástroj pro přenos dat, nástroj Sqoop přenáší data mezi Hadoop Ecosystem a Relational Database Servers (RDBMS). Importuje data do systému souborů Hadoop (HDFS), z relačních databází, jako jsou Oracle, MySQL atd., A také exportuje data ze systému souborů Hadoop do RDMS.

Níže je 15 důležitých otázek a odpovědí na rozhovor Sqoop z roku 2019:

Takže jste konečně našli svou vysněnou práci v Sqoop, ale přemýšlíte, jak rozbít Sqoop rozhovor a jaké by mohly být pravděpodobné 2019 Sqoop Interview otázky. Každý rozhovor je jiný a rozsah práce je také jiný. S ohledem na tuto skutečnost jsme navrhli nejběžnější dotazy a odpovědi týkající se rozhovorů společnosti Sqoop, které vám pomohou dosáhnout úspěchu v rozhovoru.

Tyto otázky jsou rozděleny do dvou částí:

Část 1 - Otázky k pohovoru Sqoop (základní)

Tato první část se zabývá základními otázkami a odpověďmi na rozhovor Sqoop.

1. Definujte Sqoop a proč používáme Sqoop?

Odpovědět:
Sqoop je open-source nástroj pro přenos dat, který je navržen pro přenos dat mezi Hadoop Ecosystem a Relational Database Servers (RDBMS). Sqoop se používá pro import dat z relačních databází, jako je Oracle, MySQL atd., Do systému souborů Hadoop (HDFS), a také pro export dat ze systému souborů Hadoop do relačních databází.

2. Jaké jsou různé vlastnosti Sqoopu?

Odpovědět:
Níže jsou uvedeny různé funkce podporované Sqoopem -

  1. Nakládací kapacita
  2. Plné a přírůstkové načítání
  3. Techniky komprese dat
  4. Import výsledků dotazů SQL
  5. Datové konektory pro všechny hlavní databáze
  6. Podpora přímého načítání dat do systémů souborů Hadoop
  7. Konfigurace zabezpečení, jako je Kerberos
  8. Funkce souběžného importu nebo exportu

Vraťme se k dalším otázkám Sqoop Interview.

3. Pojmenujte relační databáze a zdroje ekosystému Hadoop podporované v Sqoop?

Odpovědět:
Sqoop v současné době podporuje MySQL, PostgreSQL, Oracle, MSSQL, Teradata a IBM Netezza jako součást Relation Databases.

Aktuálně podporované cílové služby systému Hadoop Eco jsou HDFC, Hive, HBase, H Catalogue a Accumulo.

Sqoop používá MySQL jako výchozí databázi.

4. Jak Sqoop působí?

Odpovědět:
Toto jsou běžné otázky Sqoop Interview položené v rozhovoru. Pro přenos dat používá Sqoop příkazy export a import. Program Map Reduce bude v Sqoop používán interně pro ukládání datových souborů na HDFS. S úkoly Mapy budou spojeny příkazy pro načtení dat z relačních databází; Snížení úkolu přebírá odpovědnost za umístění načtených dat do cílů (HDFS / HBase / Hive)

Sqoop také používá různé API konektory pro připojení k několika databázím. Sqoop také umožňuje vytvářet vlastní konektory pro splnění specifických požadavků.

Podívejme se na ukázkové příkazy níže pro import a export

Příkaz pro připojení k databázi MySQL pro import dat z tabulky 'Log'

sqoop import –connect jdbc: mysql: // localhost / –username –password –table –m 1
sqoop import –connect jdbc: mysql: // localhost / mytestdb – kořen uživatelského jména –heslo admin123 –tabulka tabulky –m 1

Příkaz pro export dat z HDFS do relační databáze

sqoop export –connect jdbc: mysql: // localhost / sqoop_export –table export-dir / sqoop / emp_last / part-m-00000 – id aktualizovaného klíče
sqoop export –connect jdbc: mysql: // localhost / sqoop_export –table log_table –export-dir / sqoop / data / foler1 / part-m-00000

5. Co je Sqoop Metastore? Vysvětli to?

Odpovědět:
Sqoop Metastore je nástroj dostupný v Sqoop, který bude použit ke konfiguraci aplikace Sqoop a umožní hostování sdíleného úložiště ve formě metadat. Tento Metastore lze použít k provádění úloh a ke správě řady uživatelů na základě uživatelských rolí a činností. Všichni uživatelé mohou provádět více úkolů nebo operací současně, aby tyto úkoly efektivně dosáhli. Metoda Sqoop bude standardně implementována jako reprezentace v paměti. Když je úloha vytvořena v rámci Sqoop, definice úlohy je uložena uvnitř Metastore a bude v případě potřeby uvedena pomocí Sqoop úloh.

6. Jaké formáty souborů podporuje Sqoop při importu dat?

Odpovědět:
Sqoop používá pro import dat dva formáty souborů. Jsou to: - Formát souboru testovaných souborů a formátu souboru sekvencí.

Formát souboru s oddělovačem: Formát souboru s oddělovačem je výchozí formát souboru pro import. Stále můžeme explicitně specifikovat pomocí argumentu –as- textil. Podobně předání argumentu nastaví oddělovací znaky mezi řádky a sloupce.

Formát souboru sekvence : Tento formát souboru můžeme říci, že je to binární formát souboru. Tento typ záznamů ve formátu souboru je uložen v datových typech specifických pro vlastní záznam, které jsou vystaveny jako třídy Java.

Vraťme se k dalším otázkám Sqoop Interview.

7. Můžeme ovládat několik mapovačů v sqoop? Pokud ano, jak?

Odpovědět:
Ano, počet mapovačů v Sqoop můžeme řídit zadáním parametru „-num-mapovače“ v příkazu sqoop. Tento parametr může řídit počet mapových úkolů, to není nic jiného než stupeň rovnoběžnosti, který bude používat sqoop. O počtu bude rozhodnuto na základě požadavku.

Syntaxe: Pomocí těchto příznaků můžete řídit počet mapovačů: m, -num- mapper

Část 2 - Otázky k pohovoru Sqoop (pokročilé)

Pojďme se nyní podívat na pokročilé otázky Sqoop Interview.

8. Co je Sqoop-sloučit a vysvětlit jeho použití?

Odpovědět:
Sloučení Sqoop je nástroj, který kombinuje dva různé datové sady, které udržují jedinou verzi přepsáním položek ve starší verzi datového souboru novými soubory tak, aby se stal nejnovějším datovým souborem. Dochází k procesu sloučení při slučování dvou různých datových souborů, které uchovávají data bez jakékoli ztráty as účinností a bezpečností. Za účelem provedení této operace bude příkaz slučovacího klíče použit jako „–číselný klíč“

9. Jaké jsou rozdíly mezi Sqoop, Flume a Distcp?

Odpovědět:
K přenosu dat se používají Distcp i Sqoop. Sqoop se používá pro přenos jakéhokoli typu dat z jednoho klastru Hadoop do jiného klastru, zatímco Sqoop přenáší data mezi relačními databázemi a ekosystémem Hadoop, jako jsou Hive, HDFS a HBase atd. Ale obě metody používají stejný přístup ke kopírování dat, což je pull / transfer.

Flume distribuoval nástroj, který sleduje architekturu založenou na agentech, pro streamování protokolů do ekosystému Hadoop. Zatímco Sqoop je architektura založená na konektorech.

Flume shromažďuje a agreguje obrovské množství dat protokolu. Aplikace Flume může shromažďovat data z různých typů zdrojů; nezohledňuje schéma ani strukturovaná / nestrukturovaná data. Flume může vytáhnout jakýkoli typ dat. Zatímco Sqoop může importovat pouze data relačních databází, proto je schéma povinné pro zpracování sqoop. Obecně lze říci, že pro pohybující se hromadné pracovní zatížení je nejlepší možností varianta.

Vraťme se k dalším otázkám Sqoop Interview.

10. Jaké zdroje dat podporuje Apache Sqoop?

Odpovědět:
Různé zdroje dat z různých aplikací podporovaných Apache Sqoop jsou následující:

  1. Úl
  2. HBase
  3. Distribuovaný systém souborů Hadoop (HDFS)
  4. HCatalog
  5. Accumulo

11. Jaké jsou nejpoužívanější příkazy / funkce v Sqoop?

Odpovědět:

Toto jsou pokročilé otázky k pohovoru Sqoop, které byly položeny v rozhovoru. Seznam základních příkazů použitých v Sqoop je následující:

Codegen -Codegen se používá ke generování kódu pro komunikaci s databázovými záznamy.

Eval -Sqoop Eval pomáhá při spouštění ukázkových dotazů SQL proti databázím a poskytuje výsledky na konzole.

Nápověda - Nápověda seznam dostupných příkazů

Import -Import importuje tabulku do ekosystému Hadoop

Export - Export se používá k exportu dat HDFS do relačních databází.

Create-hive-table - Tento příkaz je užitečný pro import definice tabulky do Úlu

Importovat všechny tabulky - Importovat všechny tabulky importuje tabulky do relačních databází do HDFS.

Seznam databází - Vypíše seznam všech databází přítomných na serveru.

Seznam tabulek - Zobrazí seznam všech tabulek v databázi.

Verze - Zobrazí informace o verzi.

Funkce - paralelní import / export, plné zatížení, přírůstkové zatížení, plné zatížení, porovnání, konektory pro databáze RDBMS, integrace zabezpečení Kerberos, načítání dat přímo do HDFS (Hive / HBase)

12. Vysvětlete osvědčené postupy při importu tabulek z MySQL nebo jiných databází pomocí Sqoop?

Odpovědět:
Při importu tabulek z MySQL bychom se měli ujistit o několika věcech, jako je autentizace a autorizace do cílového serveru a databází. Musíme se ujistit, že jsme udělili potřebná oprávnění pro databáze, ke kterým se má přistupovat, a také se ujistit o rozlišení názvu hostitele, když se připojujeme ke zdrojovým a cílovým názvům hostitelů. Pokud nemáme potřebná oprávnění, získáme při připojení k databázi výjimku selhání připojení.

13. Jak aktualizujete již exportovaná data nebo řádky?

Odpovědět:
K aktualizaci řádků, které jsou již exportovány do cíle, můžeme použít parametr „–update-key“. V tomto je použit seznam sloupců oddělených čárkami, který jednoznačně identifikuje řádek a všechny tyto sloupce jsou použity v klauzuli WHERE generovaného dotazu UPDATE. SET část dotazu se postará o všechny ostatní sloupce tabulky.

Vraťme se k dalším otázkám Sqoop Interview.

14. Jak nakonfigurovat a nainstalovat ovladač JDBC v Apache Sqoop?

Odpovědět:
Ovladače JDB v Apache Sqoop lze konfigurovat na základě poskytovatele Hadoop, jako je Cloudera nebo Hortonworks, kde se jeho konfigurace mírně liší podle poskytovatele Hadoop. JDBC v Cloudera lze nakonfigurovat jako vytvořením složky knihovny jako / var / lib /. To lze provést pro jakoukoli knihovnu třetích stran, která musí být nakonfigurována podle požadavku. Tímto způsobem lze libovolný typ databáze konfigurovat pomocí ovladače JDBC. Kromě ovladače JDBC vyžaduje Apache Sqoop konektor pro navázání spojení mezi různými relačními databázemi. Hlavní komponenty potřebné k navázání spojení s databázemi jsou prostřednictvím ovladače a konektoru konkrétního poskytovatele databáze.

15. Co je to klauzule o rozdělení a kdy ji používáme?

Odpovědět:
Parametr rozdělení je pro krájení dat, která mají být importována, do více paralelních úloh. Pomocí tohoto parametru můžeme určit názvy sloupců, jedná se o názvy sloupců, podle kterých sqoop rozdělí data, která mají být importována, na více bloků a budou běžet paralelně. Je to jedna z technik vyladění výkonu v Sqoop.

Doporučené články

Toto byl průvodce seznamem otázek a odpovědí na pohovory Sqoop, aby uchazeč mohl snadno odpovědět na tyto otázky. Další informace naleznete také v následujících článcích -

  1. Hadoop vs Teradata - Který je prospěšný
  2. 13 Úžasné otázky týkající se testování databáze
  3. Top 10 nejužitečnějších otázek rozhovoru s HBase
  4. 10 nejčastějších dotazů na rozhovor s PHP pro zkušené
  5. Seznamte se s 5 nejčastějšími užitečnými otázkami rozhovoru DBA

Kategorie: