Úvod do architektury datových skladů

  • Datový sklad je úložiště obsahující sbírky několika různých druhů dat získaných z několika typů zdrojů.
  • Celý proces, kde jsou externí zdroje dat získávány, zpracovávány, ukládány a analyzovány na použitelné informace, probíhá v rámci soustavy systémů, které jsou sjednoceny jediným schématem známým jako architektura datových skladů.

Architektura datového skladu

Architektura datového skladu se obvykle skládá ze tří úrovní.

  • Nejvyšší úroveň
  • Střední vrstva
  • Spodní vrstva

Nejvyšší úroveň

  • Horní vrstva se skládá z klientské přední části architektury.
  • Informace o transformaci a logice uložené v datovém skladu budou použity a získány pro obchodní účely v této úrovni.
  • Pro generování požadovaných informací je k dispozici několik nástrojů pro generování a analýzu zpráv.
  • Těžba dat, která se v dnešní době stala velkým trendem, se provádí zde.
  • Veškerý dokument analýzy nákladů, náklady a všechny funkce, které určují obchodní dohodu založenou na zisku, se provádí na základě těchto nástrojů, které používají informace o datovém skladu.

Střední vrstva

  • Střední vrstva se skládá ze serverů OLAP
  • OLAP je online analytický server pro zpracování
  • OLAP se používá k poskytování informací obchodním analytikům a manažerům
  • Protože se nachází ve střední vrstvě, správně spolupracuje s informacemi přítomnými ve spodní vrstvě a předává poznatky nástrojům nejvyšší úrovně, které zpracovávají dostupné informace.
  • V architektuře datového skladu se používá většinou relační nebo vícerozměrný OLAP.

Spodní vrstva

Spodní vrstva se skládá hlavně ze zdrojů dat, nástroje ETL a datového skladu.

1. Zdroje dat

Zdroje dat se skládají ze zdrojových dat, která jsou získávána a poskytována nástrojům Staging a ETL pro další zpracování.

2. Nástroje ETL

  • Nástroje ETL jsou velmi důležité, protože pomáhají při kombinování logiky, prvotních dat a schématu do jednoho a načítají informace do datového skladu nebo datových Martů.
  • Někdy ETL načte data do Data Marts a informace se uloží do Data Warehouse. Tento přístup je známý jako přístup zdola nahoru.
  • Přístup, kde ETL načítá informace přímo do datového skladu, se nazývá přístup shora dolů.

Rozdíl mezi přístupem shora dolů a přístupem zdola nahoru

Přístup shora dolůPřístup zdola nahoru
Poskytuje jednoznačný a konzistentní pohled na informace, protože informace z datového skladu se používají k vytvoření produktu Data MartsHlášení lze snadno generovat již při prvním vytvoření datových grafů a je relativně snadné s nimi pracovat.
Silný model, a proto preferovaný velkými společnostmiNe tak silný, ale datový sklad lze rozšířit a lze vytvořit počet datových serverů
Čas, náklady a údržba jsou vysokéČas, náklady a údržba jsou nízké.

Data Marts

  • Data Mart je také komponenta úložiště používaná k ukládání dat konkrétní funkce nebo části související se společností individuálním orgánem.
  • Data mart shromažďuje informace z Data Warehouse, a proto můžeme říci, že data mart ukládá podmnožinu informací do Data Warehouse.
  • Data Marts jsou flexibilní a malé velikosti.

3. Datový sklad

  • Datový sklad je ústřední součástí celé architektury datových skladů.
  • Funguje jako úložiště pro ukládání informací.
  • V datovém skladu je uloženo velké množství dat.
  • Tyto informace používá několik technologií, jako je Big Data, které vyžadují analýzu velkých podmnožin informací.
  • Data Mart je také modelem Data Warehouse.

Různé vrstvy architektury datových skladů

V architektuře datových skladů budou vždy přítomny čtyři různé typy vrstev.

1. Vrstva zdroje dat

  • Vrstva zdroje dat je vrstva, kde jsou zpracována data ze zdroje a následně odeslána do dalších vrstev pro požadované operace.
  • Data mohou být jakéhokoli typu.
  • Zdrojová data mohou být databáze, tabulky nebo jakýkoli jiný druh textového souboru.
  • Zdrojová data mohou mít jakýkoli formát. Nemůžeme očekávat, že získáme data ve stejném formátu, protože zdroje jsou velmi odlišné.
  • V reálném životě mohou být některé příklady zdrojových dat
  • Soubory protokolu každé konkrétní aplikace nebo úlohy nebo vstupu zaměstnavatelů do společnosti.
  • Data průzkumu, burzovní údaje atd.
  • Data webového prohlížeče a mnoho dalších.

2. Datová vrstva

Následující kroky probíhají ve vrstvě datových toků.

1. Extrakce dat

Data přijatá zdrojovou vrstvou se přivádějí do pracovní vrstvy, kde je prvním procesem, ke kterému dochází se získanými daty, extrakce.

2. Přistávací databáze

  • Extrahovaná data jsou dočasně uložena v přistávací databázi.
  • Jakmile je data extrahována, načte data.

3. Pracovní plocha

  • Je převzata data v databázi přistání a v oblasti zastávky je provedeno několik kontrol kvality a pracovních kroků.
  • Struktura a schéma jsou také identifikovány a jsou prováděny úpravy u dat, která jsou neuspořádaná, a snaží se tak dosáhnout shodnosti mezi získanými daty.
  • Mít místo nebo nastavit data těsně před transformací a změnami je další výhodou, díky které je proces představování velmi důležitý.
  • Usnadňuje zpracování dat.

4. ETL

  • Je to extrakce, transformace a zatížení.
  • Nástroje ETL se používají pro integraci a zpracování dat, kde je logika aplikována na spíše nezpracovaná, ale poněkud uspořádaná data.
  • Tato data jsou extrahována podle analytické povahy, která je požadována a převedena na data, která jsou považována za vhodná k uložení do datového skladu.
  • Po transformaci jsou data nebo spíše informace načteny do datového skladu.
  • Některé příklady nástrojů ETL jsou Informatica, SSIS atd.

3. Vrstva ukládání dat

  • Zpracovaná data jsou uložena v datovém skladu.
  • Tato data jsou očištěna, transformována a připravena s definitivní strukturou, a tak poskytuje zaměstnavatelům příležitosti k použití dat, jak to vyžaduje podnikání.
  • V závislosti na přístupu architektury budou data ukládána do datového skladu i do datových Martů. Data Marts budou diskutována v pozdějších fázích.
  • Některé zahrnují také úložiště provozních dat.

4. Vrstva prezentace dat

  • Tato vrstva, kde se uživatelé dostanou do styku s daty uloženými v datovém skladu.
  • K získání různých typů informací na základě dat budou použity dotazy a několik nástrojů.
  • Informace se dostanou k uživateli grafickým znázorněním dat.
  • Nástroje pro vytváření přehledů se používají k získání obchodních dat a obchodní logika se také používá pro shromažďování několika druhů informací.
  • V této vrstvě jsou také udržovány a zobrazovány operace a výkon Meta Data Information a System.

Závěr

Důležitým bodem o datovém skladu je jeho účinnost. Abychom vytvořili efektivní datový sklad, vytvoříme rámec známý jako Business Analysis Framework. Pokud jde o návrh datového skladu, existují čtyři typy pohledů.

1. Pohled shora dolů: Toto zobrazení umožňuje vybrat pouze specifické informace potřebné pro datový sklad.

2. Zobrazení zdroje dat: Toto zobrazení zobrazuje všechny informace od zdroje dat k tomu, jak jsou transformovány a uloženy.

3. Zobrazení datového skladu: Toto zobrazení zobrazuje informace přítomné v datovém skladu prostřednictvím faktických tabulek a rozměrových tabulek.

4. Business Query View: Toto je pohled, který zobrazuje data z pohledu uživatele.

Doporučené články

Toto byl průvodce architekturou datových skladů. Zde jsme diskutovali různé typy pohledů, vrstev a úrovní architektury datových skladů. Další informace naleznete také v dalších navrhovaných článcích -

  1. Kariéra v datovém skladu
  2. Jak funguje JavaScript
  3. Dotazník pro otázky datového skladu
  4. Co je Pandas

Kategorie: