Úvod k otázkám a odpovědím na rozhovor Hbase

HBase je populární systém správy databází NoSQL orientovaný na sloupce, který běží na systému Hadoop Distributed File System (HDFS). Je vhodný pro řídké datové soubory, které jsou běžné v mnoha případech použití velkých dat.

Zde je 10 nejčastěji kladených otázek a odpovědí na rozhovor s HBase 2019: Takže jste konečně našli svou vysněnou práci v HBase, ale zajímá vás, jak rozbít rozhovor Hbase a jaké by mohly být pravděpodobné otázky na rozhovor Hbase. Každý rozhovor je jiný a rozsah práce je také jiný. S ohledem na tuto skutečnost jsme navrhli nejčastější dotazy a odpovědi Hbase Interview, které vám pomohou dosáhnout úspěchu v rozhovoru. Tyto otázky jsou rozděleny do dvou částí:

Část 1 - Otázky k pohovoru HBase (základní)

Tato první část zahrnuje základní otázky a odpovědi týkající se rozhovoru s HBase.

1. Kdy byste měli používat HBase?

Odpovědět:
Hbase není vhodný pro všechny případy použití. Nejlepší scénář lze identifikovat pomocí následujících kontrol -
i.Data volume: Měl by být zpracováván petabajty dat v distribuovaném prostředí.
ii.Aplikace: HBase není vhodná pro systémy OLTP (Online Transaction Processing), které vyžadují komplexní transakce s více příkazy. Chybí také složitá podpora SQL, která je vyžadována pro relační analýzu. Je to upřednostňováno, pokud máte obrovské množství dat s trochu odlišné schéma.
iii.Cluster Hardware: HBase běží na vrcholu HDFS. A HDFS funguje efektivně s velkým počtem uzlů (minimálně 5). Takže HBase může být dobrý výběr pouze s dobrou hardwarovou podporou.
iv.Not tradiční RDBMS: Hbase nemůže podporovat žádný případ použití, který vyžaduje tradiční funkce, jako je spojení více tabulek, složité SQls s vnořenými nebo okenními funkcemi atd.
v.Rychlý náhodný přístup k datům: Pokud potřebujete náhodný přístup k vašim datům v reálném čase, je HBase vhodným kandidátem. Je také dokonalým řešením pro ukládání velkých tabulek s více strukturovanými daty.

2. Jaký je rozdíl mezi Cassandrou a HBase?

Odpovědět:
HBase i Cassandra distribuovaly databázi NoSQL pro Big Data z ekosystému Hadoop. Oba jsou konstruovány pro různé případy použití.
HBase má jakousi architekturu master-slave s několika komponenty jako Zookeeper, Namenode, HBase Master (Hmaster) a Data Nodes atd. Cassandra považuje všechny uzly za master, což znamená, že všechny uzly jsou stejné a vykonávají všechny funkce.
HBase je optimalizována pro čtení, zápis probíhá pouze do hlavního uzlu a má silnou konzistenci pro čtení po zápisu. Pokud je vybrána možnost konzistence, Cassandra má vynikající výkon při čtení v jednom řádku.
Hbase nativně nepodporuje sekundární indexy, Cassandra podporuje sekundární indexy v rodinách sloupců, kde je známý název sloupce.
Zpočátku je Hbase vytvořen v Google a pojmenoval jej BigTable. I nyní jsou API Bigtable a HBase kompatibilní. Původ Cassandry je z papíru pro DynamoDB, což je databáze NoSQL od AWS.

Přejdeme k dalším dotazům na rozhovor HBase.

3. Jaké jsou hlavní složky Hbase?

Odpovědět:
HBase a má tři důležité komponenty - HMaster, Region Server a ZooKeeper.
i.HBase Master - HBase Tabulky jsou rozděleny do regionů. Při spuštění Master rozhodne, která oblast má být přiřazena ke kterému serveru v oblasti (server regionu bude uzlem v klastru). Zpracovává také operace metadat tabulky, jako je vytvoření nebo změna schématu. Tato součást také hraje důležitou roli při obnově selhání
ii. Region Server - Jak je uvedeno výše, v tomto případě dochází k zápisu a čtení skutečných dat. Toto jsou skutečné uzly clusteru. To bude mít oblasti mnoha tabulek, o kterých se rozhoduje počátečním a koncem klíčů řádků. Typický server regionu může obsluhovat až tisíc regionů
iii.ZooKeeper - ZooKeeper je klastrový koordinační rámec široce používaný v ekosystému Hadoop.Zookeeper sleduje všechny servery (servery Master a region) přítomné v klastrech HMaster kontakty ZooKeeper a oznámení jsou vytvářena v případě chyb.

4. Co je to filtr HBase Bloom?

Odpovědět:
Toto jsou běžné otázky HBase Interview položené během rozhovoru. Filtr HBase Bloom je účinný mechanismus pro testování, zda je soubor úložiště (Když je něco zapsáno do HBase, je nejprve zapsáno do úložiště v paměti, jakmile tento memstore dosáhne určité velikosti, je vyprázdněn na disk do úložného souboru ) obsahuje konkrétní buňku řádku nebo řádku. Normálně je jediným způsobem, jak se rozhodnout, zda je v souboru úložiště přítomen klíč řádků, kontrola v indexu bloků souboru, který má v souboru úložiště počáteční klíč řádek každého bloku. Bloomové filtry fungují jako datová struktura v paměti, která pomáhá omezit čtení disku pouze na soubory, které pravděpodobně obsahují tento řádek - Ne všechny ukládané soubory. Funguje tak jako index paměti v paměti, což naznačuje pravděpodobnost nalezení řádku v konkrétním souboru úložiště.

5. Co je zhutnění? Vysvětlete různé typy.

Odpovědět:
HBase ukládá všechny přijaté operace do své paměti. Když je vyrovnávací paměť zaplněna, je vyprázdněna na disk. Protože to může v HDFS vytvořit mnoho malých souborů, může HBase čas od času vybrat soubory, které se mají spojit do většího. Zhutnění se nazývá Minor, když HBase volí pouze některé HFiles, které mají být zhutněny, ale ne všechny. Při velkém zhutnění jsou všechny soubory vybrány ke sloučení. Hlavní zhutnění funguje jako menší, kromě toho, že značky odstranění mohou být odstraněny poté, co byly aplikovány na všechny související buňky a budou odstraněny i všechny další verze stejné buňky.

Část 2 - Otázky týkající se rozhovoru s HBase (pokročilé)

Podívejme se nyní na pokročilé otázky týkající se rozhovoru s HBase.

6.Jaká data verze HBase?

Odpovědět:
Když je část dat vložena / aktualizována / smazána, HBase vytvoří novou verzi pro tento sloupec. Ke skutečnému vymazání dochází pouze během zhutnění. Pokud určitá buňka překročí počet povolených verzí, budou během kompilace vyřazeny další verze

7. Jaký je rozdíl mezi získáním a skenováním?

Odpovědět:
Get vrátí pouze jeden řádek z tabulky Hbase na základě zadaného klíče řádku. Příkaz Scan vrací sadu řádků v závislosti na dané podmínce vyhledávání. Obvykle je rychlejší než skenování. Pokud je to možné, měli byste to raději použít.

Přejdeme k dalším dotazům na rozhovor HBase.

8. Co se stane, když odstraníte řádek?

Odpovědět:
V době odstranění nejsou příkazová data fyzicky vymazána ze systému souborů, ale místo toho jsou neviditelná nastavením značky. K fyzickému odstranění dochází během zhutnění
Značky pro odstranění sloupců, verzí a rodin jsou tři různé typy značek, které označují odstranění sloupce, verze sloupce a rodiny sloupců.

9. Vysvětlete rozdíl mezi HBase a Hive.

Odpovědět:
Toto je pokročilá otázka rozhovoru HBase položená v rozhovoru. HBase a Hive jsou zcela odlišné technologie založené na Hadoopu pro zpracování dat. Hive je distribuovaný framework úložiště kompatibilní s SQL, zatímco HBase je úložiště klíčů a hodnot NoSQL. Úl působí jako abstrakční vrstva na vrcholu Hadoopu s podporou SQL. Vzor přístupu k datovým základům je velmi omezen dvěma primárními operacemi get a scan. HBase je ideální pro zpracování dat v reálném čase, kde Hive je ideální volbou pro dávkové zpracování dat.

10. Co jsou Hlog a HFile?

Odpovědět:
HLog je soubor protokolu s předběžným zápisem, známý také jako WAL a HFile je skutečný soubor pro ukládání dat. Data se nejprve zapisují do logovacího souboru před zápisem a také se zapisují do MemStore.Once MemStore je plný, obsah MemStore je vyprázdněn na disk do HFiles.

Doporučený článek

Toto byl průvodce seznamem otázek a odpovědí na rozhovor Hbase, aby mohl kandidát snadno provést zásah do těchto otázek. Další informace naleznete také v následujících článcích -

  1. Užitečné skupinové rozhovory
  2. Důležité základní tipy pro rozhovor
  3. Základní kroky pro přípravu na pohovor
  4. Rozhovor s dotazy na kandidáta na finance

Kategorie: