Co je to datové jezero? - Potřeba dat spolu s jejich výhodami a riziky

Přehled datového jezera

Datové jezero je úložiště, ve kterém můžeme ukládat velké množství polostrukturovaných, strukturovaných a nestrukturovaných dat. Všem datovým prvkům datového jezera je přiřazeno jedinečné ID se sadou rozšířených značek metadat. Když se objeví obchodní otázka, můžete požádat o příslušná data a poté analyzovat menší data, která vám pomohou odpovědět na otázku. Jezero má plochou architekturu, na rozdíl od hierarchického datového skladu, kde jsou data uložena v souborech a složkách. Bez předchozího strukturování dat si můžete své informace ukládat tak, jak jsou, a můžeme provádět různé typy analýz, jako jsou dashboardy a vizualizace, až po zpracování velkých dat, analýzy v reálném čase a strojové učení, abychom získali lepší rozhodnutí.

Jezero používají odborníci, jako jsou vědci v oblasti dat, vývojáři dat a obchodní analytici, k ukládání velkého množství dat.

Používá se v jezeře nerelační a relační ze zařízení IoT, webových stránek, mobilních aplikací atd. Ve schématu je psáno v době analýzy, tj. Schéma čtení. Výsledek po provedení dotazu je rychlejší.

Proč potřebujeme datové jezero?

Budováním jezera mohou vědci dat vidět nerafinovaný pohled na data.

Důvody pro jeho použití jsou následující:

Společnost, která ze svých dat přináší obchodní výhody, úspěšně převyšuje jejich vrstevníky. V průzkumu v Aberdeenu byla společnost, která založila Data Lake, o 9% vyšší než růst organických výnosů podobných společností. Tito vůdci dokázali v jezeře provádět nové typy analytiků, jako je strojové učení, prostřednictvím nových zdrojů, jako jsou soubory protokolu, data clickstream, sociální média a připojení k internetu.

Podporuje import dat, která přicházejí v reálném čase. Data jsou shromažďována z více zdrojů a poté přesunuta do jezera v původním formátu. Jezero poskytuje vyšší škálovatelnost dat. Také můžete vědět, jaký typ dat je v jezeře indexováním, procházením a katalogizací dat.

Podporuje správu dat, která řídí dostupnost, použitelnost, zabezpečení a integritu dat.

Může týmům výzkumu a vývoje pomoci ověřit jejich hypotézu, upřesnit předpoklady a zhodnotit výsledky.

Není k dispozici žádná struktura sila.

Nabízí zákazníkům 360stupňový pohled a důkladnou analýzu.

Kvalita analýzy se také zvyšuje se zvyšováním objemu dat, kvality dat a metadat.

Úložné motory, jako je Hadoop, usnadňují ukládání nesourodých informací. Není třeba modelovat data s jezerem do celofiremního schématu.
Kvalita analýz se také zvyšuje s nárůstem objemu dat, kvality dat a metadat.
Nabízí obchodní agilitu
Pro ziskové předpovědi je možné použít strojové učení a umělou inteligenci.

Architektura datového jezera na Hadoopu, AWS a Azure

Datové jezero má dvě složky: ukládání a výpočet. Úložiště a výpočetní technika mohou být umístěny na místě nebo v cloudu. Výsledkem je návrh architektury datového jezera v několika možných kombinacích.

1. Hadoop

Distribuovaný serverový cluster Hadoop řeší velké obavy z ukládání dat. MapReduce je programovací model Hadoop používaný k rozdělení a zpracování informací na menší podmnožiny v clusteru serveru.

2. AWS

Produktová řada AWS pro řešení datových jezer je komplexní. Amazon S3 je ve středu řešení úložných funkcí. Tyto nástroje pro příjem dat, které nám umožňují přenášet obrovské množství dat do S3, jsou Kinesis Stream, Kinesis Firehose, Snowball a Direct Connect.

Kromě Amazonu S3 nabízí databáze NoSQL, Dynamo DB a Elastic Search zjednodušený proces dotazování. AWS nabízí širokou škálu produktů se strmou počáteční křivkou učení. Komplexní vlastnosti řešení se však široce používají v komerčních zpravodajských aplikacích.

3. Azure

Micro-soft nabídl datové jezero. Datové jezero Azure má analytickou a ukládací vrstvu, která se nazývá Azure Store (ADLS), a dvě složky, které má analytická vrstva, jsou Azure Analytics a HDInsight. Standard ADLS byl postaven v systému HDFS a lze jej neomezeně ukládat. Pomocí jediného souboru může uložit biliony souborů větších než petabajt. Azure Store umožňuje ukládat a zabezpečovat a škálovat data v jakémkoli formátu.

Výhody

Níže jsou uvedeny některé důležité body

Poskytuje neomezenou hodnotu typu dat
Rychle přizpůsobitelný změnám
Dlouhodobé vlastnické náklady jsou sníženy
Jeho hlavní výhodou je centralizace různých zdrojů obsahu
Uživatelé z různých oddělení po celém světě mohou mít flexibilní přístup k datům
Poskytuje ekonomickou škálovatelnost a flexibilitu

Riziko

Po nějaké době by to mohlo ztratit relevanci a dynamiku.
Při navrhování existuje větší riziko
Zvyšuje také náklady na skladování a produkty
Bezpečnost a kontrola přístupu jsou největším rizikem. Někdy mohou být data umístěna v jezeře bez dohledu, protože může být nutné některá data chránit a regulovat.

Doporučené články

Toto byl průvodce Co je to datové jezero ?. Zde jsme diskutovali o konceptu, proč potřebujeme Data Lake spolu s jejich výhodami a riziky. Další informace naleznete také v našich dalších doporučených článcích.

Moderní integrace dat
Co je to Data Analytics
Co je porušení dat?
Data Scientist vs Big Data
Data Lake vs Data Warehouse Rozdíly

Co je to datové jezero? - Potřeba dat spolu s jejich výhodami a riziky

Obsah:

Přehled datového jezera

Proč potřebujeme datové jezero?

Architektura datového jezera na Hadoopu, AWS a Azure

1. Hadoop

2. AWS

3. Azure

Výhody

Riziko

Doporučené články

Domácí HRM vs Mezinárodní HRM eduCBA

Vzorec zdvojnásobení času Kalkulačka (Excel Excel)

Docker příkazy Cheat Sheet Nejlepší interaktivní podváděcí list na doku

Jak extrahovat 2 hodiny denně pro více práce? - edu CBA

Drag-Along Rights - 3 typy a 5 součástí přetahovacích práv

Nástroje pro regresní testování - Top 10 nejoblíbenějších nástrojů pro regresní testování

Regresní testování - Nástroje a typy - Techniky a výhody

Alternativy Redux - Nejlepší 4 alternativy Redux s srovnávací tabulkou

Regrese vs. ANOVA Top 5 nejlepších rozdílů (s infografiky)

Regulární výrazy v JavaScriptu - Průvodce regulárními výrazy

10 důležitých otázek Java Multi-Threading Interview

Seznam Java vs Array List - Zjistěte 4 užitečné rozdíly

Java balíček - Příklad práce a kódování Java Package

Java balíčky - Jak vytvořit balíčky v Javě s příklady

Konvence pojmenování Java Syntaxe a příklad v názvové konvenci