Přehled datového jezera

Datové jezero je úložiště, ve kterém můžeme ukládat velké množství polostrukturovaných, strukturovaných a nestrukturovaných dat. Všem datovým prvkům datového jezera je přiřazeno jedinečné ID se sadou rozšířených značek metadat. Když se objeví obchodní otázka, můžete požádat o příslušná data a poté analyzovat menší data, která vám pomohou odpovědět na otázku. Jezero má plochou architekturu, na rozdíl od hierarchického datového skladu, kde jsou data uložena v souborech a složkách. Bez předchozího strukturování dat si můžete své informace ukládat tak, jak jsou, a můžeme provádět různé typy analýz, jako jsou dashboardy a vizualizace, až po zpracování velkých dat, analýzy v reálném čase a strojové učení, abychom získali lepší rozhodnutí.

Jezero používají odborníci, jako jsou vědci v oblasti dat, vývojáři dat a obchodní analytici, k ukládání velkého množství dat.

Používá se v jezeře nerelační a relační ze zařízení IoT, webových stránek, mobilních aplikací atd. Ve schématu je psáno v době analýzy, tj. Schéma čtení. Výsledek po provedení dotazu je rychlejší.

Proč potřebujeme datové jezero?

Budováním jezera mohou vědci dat vidět nerafinovaný pohled na data.

Důvody pro jeho použití jsou následující:

Společnost, která ze svých dat přináší obchodní výhody, úspěšně převyšuje jejich vrstevníky. V průzkumu v Aberdeenu byla společnost, která založila Data Lake, o 9% vyšší než růst organických výnosů podobných společností. Tito vůdci dokázali v jezeře provádět nové typy analytiků, jako je strojové učení, prostřednictvím nových zdrojů, jako jsou soubory protokolu, data clickstream, sociální média a připojení k internetu.

Podporuje import dat, která přicházejí v reálném čase. Data jsou shromažďována z více zdrojů a poté přesunuta do jezera v původním formátu. Jezero poskytuje vyšší škálovatelnost dat. Také můžete vědět, jaký typ dat je v jezeře indexováním, procházením a katalogizací dat.

Podporuje správu dat, která řídí dostupnost, použitelnost, zabezpečení a integritu dat.

Může týmům výzkumu a vývoje pomoci ověřit jejich hypotézu, upřesnit předpoklady a zhodnotit výsledky.

Není k dispozici žádná struktura sila.

Nabízí zákazníkům 360stupňový pohled a důkladnou analýzu.

Kvalita analýzy se také zvyšuje se zvyšováním objemu dat, kvality dat a metadat.

  • Úložné motory, jako je Hadoop, usnadňují ukládání nesourodých informací. Není třeba modelovat data s jezerem do celofiremního schématu.
  • Kvalita analýz se také zvyšuje s nárůstem objemu dat, kvality dat a metadat.
  • Nabízí obchodní agilitu
  • Pro ziskové předpovědi je možné použít strojové učení a umělou inteligenci.

Architektura datového jezera na Hadoopu, AWS a Azure

Datové jezero má dvě složky: ukládání a výpočet. Úložiště a výpočetní technika mohou být umístěny na místě nebo v cloudu. Výsledkem je návrh architektury datového jezera v několika možných kombinacích.

1. Hadoop

Distribuovaný serverový cluster Hadoop řeší velké obavy z ukládání dat. MapReduce je programovací model Hadoop používaný k rozdělení a zpracování informací na menší podmnožiny v clusteru serveru.

2. AWS

Produktová řada AWS pro řešení datových jezer je komplexní. Amazon S3 je ve středu řešení úložných funkcí. Tyto nástroje pro příjem dat, které nám umožňují přenášet obrovské množství dat do S3, jsou Kinesis Stream, Kinesis Firehose, Snowball a Direct Connect.

Kromě Amazonu S3 nabízí databáze NoSQL, Dynamo DB a Elastic Search zjednodušený proces dotazování. AWS nabízí širokou škálu produktů se strmou počáteční křivkou učení. Komplexní vlastnosti řešení se však široce používají v komerčních zpravodajských aplikacích.

3. Azure

Micro-soft nabídl datové jezero. Datové jezero Azure má analytickou a ukládací vrstvu, která se nazývá Azure Store (ADLS), a dvě složky, které má analytická vrstva, jsou Azure Analytics a HDInsight. Standard ADLS byl postaven v systému HDFS a lze jej neomezeně ukládat. Pomocí jediného souboru může uložit biliony souborů větších než petabajt. Azure Store umožňuje ukládat a zabezpečovat a škálovat data v jakémkoli formátu.

Výhody

Níže jsou uvedeny některé důležité body

  • Poskytuje neomezenou hodnotu typu dat
  • Rychle přizpůsobitelný změnám
  • Dlouhodobé vlastnické náklady jsou sníženy
  • Jeho hlavní výhodou je centralizace různých zdrojů obsahu
  • Uživatelé z různých oddělení po celém světě mohou mít flexibilní přístup k datům
  • Poskytuje ekonomickou škálovatelnost a flexibilitu

Riziko

  • Po nějaké době by to mohlo ztratit relevanci a dynamiku.
  • Při navrhování existuje větší riziko
  • Zvyšuje také náklady na skladování a produkty
  • Bezpečnost a kontrola přístupu jsou největším rizikem. Někdy mohou být data umístěna v jezeře bez dohledu, protože může být nutné některá data chránit a regulovat.

Doporučené články

Toto byl průvodce Co je to datové jezero ?. Zde jsme diskutovali o konceptu, proč potřebujeme Data Lake spolu s jejich výhodami a riziky. Další informace naleznete také v našich dalších doporučených článcích.

  1. Moderní integrace dat
  2. Co je to Data Analytics
  3. Co je porušení dat?
  4. Data Scientist vs Big Data
  5. Data Lake vs Data Warehouse Rozdíly

Kategorie: