Úvod do architektury velkých dat

Pokud jde o správu těžkých dat a provádění komplexních operací s těmito masivními daty, je třeba použít nástroje a techniky velkých dat. Když říkáme pomocí velkých datových nástrojů a technik, máme na mysli, že žádáme o využití různých programů a postupů, které leží v ekosystému velkých dat a jeho sféře. Neexistuje žádné obecné řešení, které by bylo poskytováno pro každý případ použití, a proto musí být vytvořeno a vyrobeno efektivním způsobem podle obchodních požadavků konkrétní společnosti. Proto je třeba využívat různé architektury velkých dat, protože kombinace různých technologií povede k dosažení výsledného případu použití. Zavedením pevné architektury lze zajistit, že bude zajištěno realizovatelné řešení pro požadovaný případ použití.

Co je architektura velkých dat?

  • Tato architektura je navržena tak, že zpracovává proces přijímání, zpracování dat a analýzu dat, která je příliš velká nebo složitá na to, aby zvládla tradiční systémy správy databází.
  • Různé organizace mají různé prahové hodnoty pro své organizace, jiné to mají pro několik stovek gigabajtů, zatímco pro jiné dokonce některé terabajty nejsou dostatečně dobré, pokud jde o prahovou hodnotu.
  • Díky této události, když se podíváte na komoditní systémy a komoditní skladování, se hodnoty a náklady na skladování výrazně snížily. Existuje velké množství údajů, které vyžadují různé způsoby, jak být zajištěn.
  • Některé z nich jsou data týkající se šarží, která přicházejí v určitém čase, a proto je třeba naplánovat úlohy podobným způsobem, zatímco jiní patří do třídy streamování, kde musí být postaven plynovod v reálném čase, aby vyhovoval všem požadavky. Všechny tyto výzvy jsou řešeny architekturou velkých dat.

Vysvětlení architektury velkých dat:

Systémy Big Data zahrnují více než jeden typ pracovní zátěže a jsou široce klasifikovány takto:

  1. Tam, kde jsou velké zdroje dat v klidu, se jedná o dávkové zpracování.
  2. Velké zpracování dat v pohybu pro zpracování v reálném čase.
  3. Průzkum interaktivních velkých datových nástrojů a technologií.
  4. Strojové učení a prediktivní analýza.

1. Zdroje dat

Zdroje dat zahrnují všechny ty zlaté zdroje, z nichž je postaven potrubí pro extrakci dat, a proto lze říci, že je to výchozí bod velkého datového potrubí.

Příklady zahrnují:
(i) Datové soubory aplikací, jako jsou ty, jako jsou relační databáze

(ii) Soubory, které jsou vytvářeny řadou aplikací a jsou převážně součástí statických systémů souborů, jako jsou soubory webového serveru generující protokoly.

iii) zařízení internetu věcí a jiné zdroje dat založené na reálném čase.

2. Ukládání dat

To zahrnuje data, která jsou spravována pro operace s dávkovými sestavami a jsou uložena v obchodech se soubory, které jsou distribuovány v přírodě a jsou také schopny pojmout velké objemy různých formátů zálohovaných velkých souborů. Říká se tomu datové jezero. To obvykle tvoří část, kde jsou poskytovány naše úložiště Hadoop, jako jsou HDFS, Microsoft Azure, AWS, GCP, spolu s kontejnery blob.

3. Dávkové zpracování

Všechna data jsou rozdělena do různých kategorií nebo bloků, které využívají dlouhodobých úloh používaných k filtrování a agregaci a také k přípravě dat o zpracovaných stavech pro analýzu. Tyto úlohy obvykle využívají zdroje, zpracovávají je a poskytují výstup zpracovaných souborů do nových souborů. Dávkové zpracování se provádí různými způsoby použitím úloh Hive nebo úloh založených na U-SQL nebo použitím Sqoop nebo Pig spolu s vlastními úlohami pro práci s mapovými reduktory, které jsou obecně psány v kterékoli z Java nebo Scala nebo jiných jazyk, jako je Python.

4. Přijímání zpráv v reálném čase

To zahrnuje, na rozdíl od dávkového zpracování, všechny ty systémy streamování v reálném čase, které obstarávají data generovaná postupně a v pevném vzoru. Toto je často jednoduchý datový server nebo obchod odpovědný za všechny příchozí zprávy, které jsou vynechány uvnitř složky nezbytně použité pro zpracování dat. Existuje však většina řešení, která vyžadují potřebu úložiště přijímání zpráv, které funguje jako vyrovnávací paměť zpráv a také podporuje zpracování založené na měřítku, poskytuje srovnatelně spolehlivé doručení spolu s další sémantikou frontování zpráv. Mezi možnosti patří například Apache Kafka, Apache Flume, Centra událostí od Azure atd.

5. Zpracování proudu

Existuje mírný rozdíl mezi přijímáním zpráv v reálném čase a zpracováním toku. První z nich bere v úvahu přijímaná data, která se shromažďují nejprve a poté se používají jako nástroj pro předplatné publikování. Na druhé straně zpracování datového proudu se používá ke zpracování všech datových proudů, ke kterým dochází v systému Windows nebo datových proudech, a poté je zapisuje do výstupního jímky. To zahrnuje Apache Spark, Apache Flink, Storm atd.

6. Datové úložiště založené na analytice

Toto je úložiště dat, které se používá pro analytické účely, a proto již zpracovaná data jsou dotazována a analyzována pomocí analytických nástrojů, které mohou odpovídat řešením BI. Data mohou být také prezentována pomocí technologie datového skladu NoSQL, jako je HBase, nebo jakýmkoli interaktivním využitím databáze úlu, která může poskytnout abstrakci metadat v datovém úložišti. Nástroje zahrnují Hive, Spark SQL, Hbase atd.

7. Podávání zpráv a analýza

Statistiky musí být generovány na zpracovaných datech a to je účinně prováděno nástroji pro reportování a analýzu, které využívají jejich zabudovanou technologii a řešení k vytváření užitečných grafů, analýz a statistik užitečných pro podniky. Nástroje zahrnují Cognos, Hyperion, atd.

8. Orchestrace

Velká řešení založená na datech se skládají z operací souvisejících s daty, které mají opakující se charakter a jsou také zapouzdřeny do pracovních toků, které mohou transformovat zdrojová data a také přesouvat data napříč zdroji, stejně jako klesat a načítat v obchodech a tlačit do analytických jednotek. Mezi příklady patří Sqoop, oozie, továrna na data atd.

Závěr

V tomto příspěvku se dočteme o architektuře velkých dat, která je nezbytná pro implementaci těchto technologií ve společnosti nebo organizaci. Doufám, že se vám náš článek líbil.

Doporučené články

Toto byl průvodce architekturou velkých dat. Zde diskutujeme o tom, co jsou velká data? a také jsme vysvětlili architekturu velkých dat spolu s blokovým diagramem. Další informace naleznete také v dalších navrhovaných článcích -

  1. Technologie velkých dat
  2. Analýza velkých dat
  3. Kariéra ve velkých datech
  4. Otázky pro rozhovor s Big Data
  5. Top 8 zařízení IoT byste měli vědět
  6. Typy spojení ve Spark SQL (příklady)

Kategorie: