Top 8 Big Data Engineer Interview a otázky (aktualizováno pro 2019)

Úvod do otázek a odpovědí na rozhovor s Big Data

Všechny druhy dat, které generují na internetu, se nazývají Big Data, přes stovky GB dat jsou generována přes internet pouze prostřednictvím online aktivit. Online aktivita, jako je webová aktivita, blogy, text, video / audio soubory, obrázky, e-mail, aktivita v sociálních sítích. Velká data vyžadují ke zpracování všech nestrukturovaných dat specializované systémy a softwarové nástroje. Data, která mohou být generována z těchto činností, se nazývají Big Data. Big Data je zcela široká a distribuovaná přes internet, a proto zpracování velkých dat vyžaduje distribuované systémy a nástroje, aby z nich bylo možné získat informace.

Níže uvádíme několik důležitých otázek a odpovědí na rozhovor s velkými daty 2019:

Pokud hledáte práci, která souvisí s Big Data, musíte se připravit na otázky týkající se pohovoru Big Data v roce 2019. Přestože je každý rozhovor Big Data odlišný a rozsah práce je také odlišný, můžeme vám pomoci s těmi nejdůležitějšími otázkami a odpověďmi ohledně Big Data interview, které vám pomohou udělat krok a získat úspěch v rozhovoru s Big Data.

Tyto otázky jsou rozděleny do dvou částí:

Část 1 - Otázky k velkým datovým rozhovorům (základní)

Tato první část se zabývá základními otázkami a odpověďmi na rozhovor Big Big

1. Jaký je význam velkých dat a jak se liší?

Odpovědět:
Velká data je termín představující všechny druhy dat generovaných na internetu. Na internetu je přes stovky GB dat generováno pouze online aktivitou. Aktivita online zde znamená aktivitu na webu, blogy, text, video / audio soubory, obrázky, e-mail, aktivitu na sociálních sítích atd. Velká data lze označit jako data vytvořená ze všech těchto činností. Data generovaná online jsou většinou nestrukturovaná. Velká data budou kromě online aktivit zahrnovat také data transakcí v databázi, soubory systémového protokolu, spolu s daty generovanými z inteligentních zařízení, jako jsou senzory, IoT, RFID tagy atd.
Velká data vyžadují ke zpracování všech nestrukturovaných dat specializované systémy a softwarové nástroje. Ve skutečnosti je podle některých odhadů odvětví téměř 85% dat generovaných na internetu nestrukturovaných. Relační databáze mají obvykle strukturovaný formát a databáze je centralizovaná. Zpracování RDBMS tedy lze rychle provést pomocí jazyka dotazu, jako je SQL. Na druhé straně, velká data jsou velmi velká a jsou distribuována přes internet, a proto zpracování velkých dat bude vyžadovat distribuované systémy a nástroje k extrahování informací z nich. Velká data vyžadují specializované nástroje, jako jsou Hadoop, Hive nebo jiné, spolu s vysoce výkonným hardwarem a sítěmi, aby je mohly zpracovat.

2. Jaké jsou charakteristiky velkých dat?

Odpovědět:
Velká data mají tři hlavní charakteristiky: Svazek, Variety a Rychlost.
Objemová charakteristika se týká velikosti dat. Odhady ukazují, že se denně generuje více než 3 miliony GB dat. Zpracování tohoto objemu dat není možné v běžném osobním počítači nebo v síti klient-server v kancelářském prostředí s omezenou výpočetní šířkou pásma a úložnou kapacitou. Cloudové služby však poskytují řešení, jak zpracovat velké objemy dat a efektivně je zpracovat pomocí distribuovaných výpočetních architektur.
Odrůdová charakteristika se týká formátu velkých dat - strukturovaných nebo nestrukturovaných. Tradiční RDBMS se hodí do strukturovaného formátu. Příkladem nestrukturovaného datového formátu je formát video souboru, obrazové soubory, formát prostého textu, z webového dokumentu nebo standardních dokumentů MS Word, všechny mají jedinečné formáty atd. Všimněte si také, že RDBMS nemá kapacitu pro zpracování nestrukturovaných datových formátů. Všechna tato nestrukturovaná data musí být dále seskupena a konsolidována, což vytváří potřebu specializovaných nástrojů a systémů. Kromě toho se nová data přidávají každý den nebo každou minutu a data rostou nepřetržitě. Velká data jsou tedy synonymem pro rozmanitost.
Rychlostní charakteristika se týká rychlosti, při které jsou data vytvářena, a účinnosti požadované pro zpracování všech dat. Na Facebook například přistupuje za měsíc přes 1, 6 miliardy uživatelů. Podobně existují i další weby sociálních sítí, YouTube, služby Google atd. Tyto datové toky musí být zpracovávány pomocí dotazů v reálném čase a musí být uloženy bez ztráty dat. Při zpracování velkých dat je tedy důležitá rychlostní charakteristika.
Kromě toho další charakteristiky zahrnují pravdivost a hodnotu. Spolehlivost a spolehlivost dat bude záviset na pravdivosti a hodnota je hodnota odvozená organizacemi od zpracování velkých dat.

Přejdeme k dalším otázkám Big Data Interview

3. Proč jsou pro organizace důležitá velká data?

Odpovědět:
Toto je základní otázka rozhovoru s Big Data položená v rozhovoru. Velká data jsou důležitá, protože zpracováním velkých dat mohou organizace získat podrobné informace týkající se:
• Snižování nákladů
• Vylepšení produktů nebo služeb
• Porozumět chování a trhům zákazníků
• Efektivní rozhodování
• Zvýšit konkurenceschopnost

4. Pojmenujte některé nástroje nebo systémy používané při zpracování velkých dat?

Odpovědět:
Velké zpracování a analýza dat lze provádět pomocí,
• Hadoop
• Úl
• Prase
• Mahout
• Flume

Část 2 - Rozhovory s velkými daty (pokročilé)

Podívejme se nyní na pokročilé otázky Interview s velkými daty.

5. Jak mohou organizace podporující velké údaje?

Odpovědět:
Velká data mají potenciál podporovat organizace mnoha způsoby. Informace extrahované z velkých dat lze použít v
• Lepší koordinace se zákazníky a zúčastněnými stranami a řešení problémů
• Vylepšete vykazování a analýzu vylepšení produktů nebo služeb
• Přizpůsobte produkty a služby vybraným trhům
• Zajistit lepší sdílení informací
• Podpora při rozhodování o řízení
• Identifikovat nové příležitosti, nápady na produkty a nové trhy
• Shromažďujte data z více zdrojů a archivujte je pro budoucí použití
• Údržba databází, systémů
• Určete metriky výkonu
• Pochopit vzájemné závislosti mezi obchodními funkcemi
• Vyhodnotit výkon organizace

6. Vysvětlete, jak velká data lze použít ke zvýšení obchodní hodnoty?

Odpovědět:
Taková analýza pochopí potřebu analýzy velkých dat a pomůže podnikům identifikovat svou pozici na trzích a pomůže podnikům odlišit se od konkurence. Například z výsledků analýzy velkých dat mohou organizace pochopit potřebu přizpůsobených produktů nebo pochopit potenciální trhy směrem ke zvyšování výnosů a hodnoty. Analýza velkých dat bude zahrnovat seskupení dat z různých zdrojů, abychom pochopili trendy a informace týkající se podnikání. Pokud se analýza velkých dat provádí plánovaným způsobem shromažďováním údajů ze správných zdrojů, mohou organizace snadno generovat obchodní hodnotu a příjmy téměř o 5% až 20%. Mezi příklady takových organizací patří Amazon, Linkedin, WalMart a mnoho dalších.

Přejdeme k dalším otázkám Big Data Interview

7. Co je implementace velkých datových řešení?

Odpovědět:
Řešení velkých dat jsou nejprve implementována v malém měřítku, na základě konceptu vhodného pro podnikání. Z výsledku, což je prototypové řešení, se podnikové řešení dále rozšiřuje. Toto jsou nejoblíbenější otázky týkající se rozhovorů s velkými údaji, které byly položeny v rozhovoru s velkými údaji. Mezi nejlepší postupy, které se v tomto odvětví dodržovaly, patří:
• Mít jasné cíle projektu a spolupracovat tam, kde je to nutné
• Shromažďování dat ze správných zdrojů
• Zajistěte, aby výsledky nebyly zkreslené, protože to může vést k nesprávným závěrům
• Buďte připraveni inovovat zvážením hybridních přístupů ve zpracování zahrnutím dat ze strukturovaných i nestrukturovaných typů, včetně interních i externích zdrojů dat
• Pochopit dopad velkých dat na stávající informační toky v organizaci

8. Jaké jsou kroky při řešení velkých dat?

Odpovědět:
Řešení velkých dat sledují tři standardní kroky při jeho implementaci. Oni jsou:
Příjem dat: Tento krok definuje přístup k extrahování a konsolidaci dat z více zdrojů. Zdroje dat mohou být například zdroje sociálních sítí, CRM, RDBMS atd. Data extrahovaná z různých zdrojů jsou uložena v distribuovaném systému souborů Hadoop (HDFS).
Ukládání dat: Toto je druhý krok, extrahovaná data jsou uložena. Toto úložiště může být v HDFS nebo HBase (databáze NoSQL).
Zpracování dat: Toto je poslední krok. Uložená data musí být zpracována. Zpracování se provádí pomocí nástrojů, jako jsou Spark, Pig, MapReduce a další.

Doporučený článek

Byl to komplexní průvodce k otázkám a odpovědím na rozhovor s Big Data, aby mohl kandidát snadno odpovědět na tyto otázky. Další informace naleznete také v následujících článcích -