Úvod do otázek a odpovědí na rozhovor s Analytics
Takže jste konečně našli svou vysněnou práci v Data Analytics, ale zajímá vás, jak rozbít rozhovor s 2019 Data Analytics a jaké by mohly být pravděpodobné otázky Interview s Data Analytics. Každý rozhovor se službou Analytics se liší a rozsah práce se také liší. S ohledem na tuto skutečnost jsme navrhli nejčastější dotazy a odpovědi na rozhovor s nástroji Analytics pro analýzu dat, abychom vám pomohli dosáhnout úspěchu v rozhovoru pro službu Analytics.
Níže jsou uvedeny hlavní otázky týkající se rozhovorů o datové analýze 2019, které se nejčastěji kladou v rozhovoru
1. Jaký je rozdíl mezi těžbou a analýzou dat?
Odpovědět:
|
2. Uveďte, jaké jsou různé kroky v analytickém projektu?
Odpovědět:
Analytika dat se zabývá sběrem, čištěním, transformací a modelováním dat, aby získala cenné poznatky a podpořila lepší rozhodování v organizaci. Kroky zapojené do procesu analýzy dat jsou následující -
Zkoumání dat - Po prozkoumání obchodního problému musí analytik dat analyzovat hlavní příčinu problému.
Příprava dat - V tomto kroku procesu analýzy dat najdeme datové anomálie jako chybějící hodnoty v datech.
Modelování dat - Krok modelování začíná po přípravě dat. Modelování je iterační proces, ve kterém je model prováděn opakovaně za účelem zlepšení. Modelování dat zajišťuje nejlepší možný výsledek obchodního problému.
Ověření - V tomto kroku se model poskytnutý klientem a model vyvinutý analytikem dat vzájemně porovnají, aby se zjistilo, zda vyvinutý model splní obchodní požadavky.
Implementace modelu a sledování - V tomto posledním kroku analýzy dat se provádí implementace modelu a poté se provádí sledování, aby se zajistilo, že model je implementován správně nebo ne?
3. Jaká je odpovědnost analytika dat?
Odpovědět:
• Řešení problémů souvisejících s obchodem pro klienty a provádění operací auditu dat.
• Interpretovat data pomocí statistických technik.
• Identifikujte oblasti pro příležitosti ke zlepšení.
• Analyzovat, identifikovat a interpretovat trendy nebo vzorce ve složitých souborech dat.
• Získat data z primárních nebo sekundárních zdrojů dat.
• Údržba databází / datových systémů.
• Vyhledejte a opravte problémy s kódem pomocí indikátorů výkonu.
• Zabezpečení databáze vývojem přístupového systému.
4.Jaké jsou kolize tabulky hash? Jak je tomu zabráněno?
Odpovědět:
Kolize hash tabulky nastane, když dva různé klíče hash na stejnou hodnotu. Existuje mnoho technik, jak zabránit kolizi hashových tabulek, zde uvádíme dva:
Samostatné řetězení: Pro ukládání více položek používá datovou strukturu, která hashuje do stejného slotu.
Otevřené adresování: Vyhledává další sloty pomocí druhé funkce a ukládá položku do prvního prázdného slotu.
5. Seznam některých nejlepších nástrojů, které mohou být užitečné pro analýzu dat?
Odpovědět:
•Živý obraz
• RapidMiner
• OpenRefine
• KNIME
• Google Search Operators
• Řešitel
• NodeXL
• io
• Wolfram Alpha
• Tabulky Google Fusion
6. Jaký je rozdíl mezi dolováním a profilováním dat?
Odpovědět:
Rozdíl mezi dolováním a profilováním dat je následující -
• Profilování dat: Zaměřuje se na okamžitou analýzu jednotlivých atributů, jako je cena, rozdílná cena a jejich frekvence, výskyt nulových hodnot, typ dat, délka atd.
• Dolování dat: Zaměřuje se na závislosti, zjišťování sekvence, udržování relací mezi několika atributy, shlukovou analýzu, detekci neobvyklých záznamů atd.
7. Vysvětlete K-střední algoritmus a hierarchický klastrovací algoritmus?
Odpovědět:
K-Mean Algorithm - K střední je slavná metoda dělení. V algoritmu K-střední jsou klastry sférické, tj. Datové body v klastru jsou soustředěny na tomto klastru. Rovněž rozptyl klastrů je podobný, tj. Každý datový bod patří k nejbližšímu klastru
Algoritmus hierarchického klastru - Hierarchický klastrovací algoritmus kombinuje a rozděluje stávající skupiny a vytváří pro ně hierarchickou strukturu, aby zobrazoval pořadí, ve kterém jsou skupiny rozděleny.
8.Co je čištění dat? Uveďte několik doporučených postupů, které je třeba při čištění dat dodržovat?
Odpovědět:
Z daného datového souboru je nesmírně důležité třídit informace potřebné pro analýzu dat. Čištění dat je klíčovým krokem, ve kterém jsou data kontrolována za účelem zjištění jakýchkoli anomálií, odstranění opakujících se a nesprávných informací atd. Čištění dat nezahrnuje odstranění jakýchkoli existujících informací z databáze, pouze zvyšuje kvalitu dat, takže je lze použít pro analýzu .
Mezi nejlepší postupy čištění dat patří -
• Vypracování plánu kvality dat s cílem zjistit, kde se vyskytují maximální chyby kvality dat, abyste mohli posoudit kořenovou příčinu a podle toho naplánovat.
• Před vložením do informací dodržujte obvyklou metodu doložení potřebných informací.
• Identifikujte všechna duplicitní data a ověřte jejich přesnost, protože vám tím během analýzy ušetří spoustu času.
• Sledování všech vylepšení prováděných na informacích je neuvěřitelně nutné, abyste v případě potřeby opakovali nebo odstranili jakékoli operace.
9. Jaké jsou některé statistické metody, které jsou užitečné pro analytiky dat?
Odpovědět:
Statistické metody, které jsou užitečné pro vědce, jsou
• Bayesovská metoda
• Markovův proces
• Prostorové a klastrové procesy
• Statistiky pořadí, percentil, detekce odlehlých hodnot
• Imputační techniky atd.
• Simplexní algoritmus
• Matematická optimalizace
10. Vysvětlete, co je imputace? Seznam různých typů technik imputace? Která imputační metoda je příznivější?
Odpovědět:
Během imputace máme tendenci nahradit chybějící informace substituovanými hodnotami. Druhy technik imputace zahrnují -
• Single Imputation: Single imputation označuje, že chybějící hodnota je nahrazena hodnotou. V této metodě se získá velikost vzorku.
• Imputace hot-deck: Chybná hodnota je imputována z náhodně vybraného podobného záznamu pomocí děrné karty
• Imputace studené paluby: Funguje stejně jako imputace na horních palubách, ale o něco pokročilejší a vybírá dárce z jiných datových sad.
• Střední imputace: Jedná se o nahrazení chybějící hodnoty předpovídanými hodnotami jiných proměnných.
• Regresní imputace: Jedná se o nahrazení chybějící hodnoty předpovězenými hodnotami určité hodnoty v závislosti na jiných proměnných.
• Stochastická regrese: Je stejná jako regresní imputace, ale k regresní imputaci přidává běžnou regresní varianci
• Vícenásobná imputace: Na rozdíl od jedné imputace odhaduje více imputací hodnoty vícekrát
Přestože je jednoduchá imputace široce používána, neodráží nejistotu způsobenou náhodnými chybějícími údaji. V případě náhodně chybějících dat jsou tedy více imputací výhodnější než jediná imputace.
Doporučené články
Toto byl komplexní průvodce k otázkám a odpovědím na otázky týkající se datové analýzy, aby uchazeč mohl snadno provést zásah do těchto otázek. Další informace naleznete také v následujících článcích -
- 10 užitečných otázek a odpovědných rozhovorů
- 8 úžasných dotazů na rozhovor s algoritmy
- 25 nejdůležitějších otázek z oblasti informatiky
- 10 úžasných otázek a odpovědí na rozhovor s datovým inženýrem