Úvod do rozhovoru s datovým inženýrem Otázky a odpovědi

Datové inženýrství je termín, o kterém si je každý vědom a v oblasti velkých dat je docela populární. Datové inženýrství se týká datové infrastruktury nebo datové architektury. Nezpracovaná data generovaná z různých zdrojů, jako jsou sociální média, mobilní telefony, www (internet), musí být pro potřeby podnikání transformována, vyčištěna, profilována a agregována. Tato surová data se také nazývají Dark Data. Praxe navrhování, architektury a implementace systému zpracování dat pomáhá při převádění dat do části vhodných informací nebo sady dat, přičemž tyto informace nebo soubory dat se nazývají Data Engineering.

Níže je uveden seznam nejdůležitějších otázek a odpovědí na otázky týkající se datového rozhovoru 2019:

Pokud hledáte práci, která souvisí s Data Engineer, musíte se připravit na otázky týkající se rozhovoru s Data Engineer 2019. Přestože jsou všechny otázky týkající se rozhovoru s datovým inženýrem odlišné a rozsah práce je také odlišný, můžeme vám pomoci s nejlepšími otázkami s dotazem na datový inženýr s odpověďmi, které vám pomohou udělat krok a získat úspěch v rozhovoru s datovým inženýrem.

1. Co je to datové inženýrství?

Odpovědět:
Datové inženýrství je termín, který je v oblasti velkých dat docela oblíbený a týká se hlavně datové infrastruktury nebo datové architektury.
Data generovaná mnoha zdroji, jako jsou sociální média, mobilní telefony, www (internet), jsou nezpracovaná data. Je třeba ji transformovat, vyčistit, profilovat a agregovat pro obchodní potřeby. Můžeme nazvat tato surová data jako tmavá data, která rozsvítíme, aby byla tato temná data užitečná. Praxe navrhování, architektury a implementace systému zpracování dat, který pomůže převést data na užitečné informace, se nazývá Data Engineering.

2. Vysvětlete každodenní práci datového inženýra?

Odpovědět:
Denní práce datového inženýra se skládá z:
A. zpracování datového vedení v rámci organizace
b. manipulace a údržba zdrojových systémů dat a pracovních oblastí
C. provádění ETL nebo ELT a transformace dat
d. zjednodušení čištění dat a zlepšení odstraňování duplicit a budování dat
E. vytváření a extrakci dotazů na data ad hoc
Viz níže vizualizace informující o věcech, na nichž pracuje datový inženýr: -

3. Máte zkušenosti s modelováním dat?

Odpovědět:
Dá se říci, že pracoval na projektu pro klienta financí / zdravotního pojištění, kde použil nástroje ETL jako Informatica / Talend / Pentaho atd. K transformaci a zpracování dat načtených z databáze MySQL / RDS / SQL a odešle tyto informace prodejcům, kteří mohou pomoci zvýšit jejich příjmy. Jeden může ukázat pod vysokou úrovní architektury datového modelu. Skládá se z primárního klíče, entity, atributů, vztahu, omezení atd.

4. Jaké jsou různé typy návrhových schémat v datovém modelování? Vysvětlete příkladem?

Odpovědět:
Při modelování dat existují dva typy schémat:
A. Schéma hvězd
Toto schéma je rozděleno na dvě tabulky faktů a další tabulky rozměrů, kde jsou všechny tabulky rozměrů spojeny s tabulkou faktů. Cizí tabulka ve skutečnosti odkazuje na primární klíče přítomné v tabulkách rozměrů. Viz níže architektura hvězdného schématu:

b. Schéma sněhové vločky
V tomto schématu je zvýšena úroveň normalizace, zde tabulka faktů zůstane stejná jako u schématu hvězd, zde jsou normalizovány rozměrové tabulky. Vzhledem k mnoha vrstvám rozměrových tabulek to vypadá jako sněhová vločka, tedy název schéma sněhové vločky. Viz architektura níže: -

5. Který nástroj ETL používáte a jak je to nejlepší v porovnání s ostatními?

Odpovědět:
Dá se říci, že použil Informatica jako nástroj ETL kvůli mnoha bodům, v první řadě je to, že podle Gartnerova magického kvadrantu pro nástroje pro integraci dat je Informatica umístěna jako vůdce po desátý rok po sobě. Snadno se používá a učí se a má funkce pro připojení k různým zdrojovým datům a datovým typům, opakovaně použitelným komponentám a funkcím, díky kterým je pro vývojáře ETL nejoblíbenější. Má také svůj vlastní plánovač, což je další výhoda, kdy jiné nástroje ETL musí k plánování úloh používat externí plánovač.

6. Které technologie / programovací jazyk byste měli mít / naučit se být datovým inženýrem?

Odpovědět:
Matematika (lineární algebra a pravděpodobnost)
Statistika (souhrnná statistika)
Techniky strojového učení
Jazyky R a SAS
SQL databáze, Hive QL
Python (většinou používaný)
Kromě těchto, jeden by měl mít řešení problémů, analytické a architektonické znalosti databáze.

7. Jaké jsou běžné problémy, kterým čelí datoví inženýři?

Odpovědět:
1. Integrace v reálném čase / kontinuální integrace
2. Ukládání obrovského množství dat je jedním problémem, informace z těchto dat jsou dalším problémem.
3. Které nástroje lze použít a které poskytují nejlepší výkon, skladování, efektivitu a výsledky.
4. Má měřítko úložiště? Předpokládejme, jak vědět, že pro zpracování celé sady dat, jak dlouho to bude trvat?
5. Posouzení procesorů a konfigurace RAM
6. Jak se vypořádat s poruchami, je tam odolnost vůči chybám nebo ne?

8. Jak se liší datový architekt od datového inženýra?

Odpovědět:
Data Architect je osoba pro správu dat, zejména pokud se jedná o různá čísla různých zdrojů dat. Jeden by měl mít hluboké znalosti o tom, jak databáze funguje, jak se data vztahují k obchodním problémům a jak změny narušují využívání dat organizace, a poté bude datový architekt podle nich manipulovat / transformovat architekturu dat.
Hlavní zodpovědností Data architekta je práce na datových skladech, vývoji datové architektury nebo podnikových datových centrech / skladech.
Zatímco datový inženýr pomáhá s instalací řešení datového skladu, modelování dat, vývojem a testováním architektury databáze.

9. Popište čas, kdy jste našli nový případ použití pro existující databázi, která měla pozitivní dopad na podnikání?

Odpovědět:
Zatímco v éře velkých dat bude mít SQL níže uvedené funkce:
A. RDBMS jsou schématicky orientované DB, takže je lepší pro strukturovaná data, nikoli pro polostrukturovaná nebo nestrukturovaná data.
b. Nelze zpracovat nepředvídatelná a nestrukturovaná data.
C. Není to horizontálně škálovatelné, tj. Paralelní provádění a ukládání není možné v SQL.
d. Po zvýšení počtu uživatelů trpí problémem s výkonem.
E. Používá se hlavně pro online transakční zpracování.

K překonání těchto nedostatků můžeme použít NoSQL DB, tj. Nejen SQL.
V projektu je tedy možné použít různé typy NoSQL DB jako Cassandra, Mongo DB, Graph DB, HBase atd.

10. Máte zkušenosti s prací v prostředí cloud computingu? Jaké výhody vidíte v jednom?

Odpovědět:
Dá se říci, že Cloud Computing Environment je připraveno přesunout prostředí pro výrobu, vývoj a testování bez přemýšlení o integraci mnoha instancí / Linux / okenních serverů dohromady. Na trhu existují různé cloud computingové služby jako AWS (Amazon webové služby), Azure (Microsoft), GCP (Google Cloud Platform). Cloud computingová služba poskytuje níže uvedené funkce, jako je flexibilita, tj. Prostředí se bude rozšiřovat podle požadavku, zotavení po katastrofě zálohováním a snímky, práce odkudkoli s VPN, zabezpečené prostředí a šetrné k životnímu prostředí, protože pracuje na komoditním hardwaru, tj. Na univerzálních počítačích, které jsou nízké náklady.

Závěr

Ve výše uvedeném blogu jsme ponechali nejčastěji kladené otázky týkající se rozhovorů o nástroji Data Engineer a o tom, jak je možné na tuto otázku odpovědět uvedením bodů funkce.

Doporučený článek:

Toto byl komplexní průvodce k otázkám a odpovědím na otázky týkající se datového inženýra, aby uchazeč mohl tyto otázky týkající se rozhovorů s datovým inženýrem snadno zakročit. Tento článek se skládá ze všech nejlepších otázek a odpovědí na otázky datového inženýra. Další informace naleznete také v následujících článcích -

  1. Nejdůležitější Azure Paas vs Iaas
  2. Otázky pro rozhovor s Big Data
  3. 5 nejdůležitějších otázek rozhovoru s Elasticsearch
  4. PIG Interview otázky a odpovědi
  5. Top 5 nejdůležitějších otázek rozhovoru s daty vědy

Kategorie: