Úvod do datového potrubí AWS

Data rostou exponenciálně každý den a ve srovnání s minulostí je jejich správa obtížná. Potřebujeme nástroje a služby, abychom mohli naše data spravovat efektivně a za levnější náklady. Tam se také objeví AWS Data Pipeline. Nejde jen o ukládání dat, ale musíte analyzovat, zpracovat, transformovat data do požadovaného formuláře na stejném místě, to vše lze dosáhnout pomocí AWS Data Pipeline.

Potřeba datového potrubí

Pokusme se pochopit potřebu datového potrubí pomocí příkladu:

Příklad č. 1

Máme web, který zobrazuje obrázky a gif na základě uživatelských vyhledávání nebo filtrů. Naším primárním zaměřením je poskytování obsahu. K dosažení těchto cílů existují následující cíle: -

  • Zlepšení doručování obsahu: Poskytování toho, co uživatelé chtějí efektivně a dostatečně rychle.
  • Efektivní správa aplikace: Ukládání uživatelských dat i webových protokolů pro pozdější analytické účely.
  • Zlepšení podnikání: Používáním uložených dat a analýz se rozhodnete podnikat lépe za levnější náklady.

Příklad č. 2

Existují určitá úzká hrdla, o která je třeba se starat při dosahování cílů:

  • Obrovské množství dat v různých formátech a na různých místech dělá zpracování, ukládání a migraci dat složitou úlohou.

Různé komponenty pro ukládání dat pro různé typy dat:

  • Možná data v reálném čase pro registrované uživatele: Dynamo DB .
  • Protokoly webového serveru pro potenciální uživatele: Amazon S3 .
  • Demografická data a přihlašovací údaje: Amazon RDS.
  • Data senzoru a datový soubor třetí strany: Amazon S3.

Řešení

  • Realizovatelné řešení: Vidíme, že musíme řešit různé typy nástrojů pro převod dat z nestrukturovaných do strukturovaných pro analýzu. Zde musíme použít různé nástroje pro ukládání dat a znovu pro převod, analýzu a ukládání zpracovaných dat. Nejedná se o nákladově efektivní řešení.
  • Optimální řešení: Použijte datový kanál, který zpracovává zpracování, vizualizaci a migraci. Datový kanál může být užitečný při migraci dat z různých míst, také analyzovat data a zpracovávat na stejném místě vaším jménem.

Co je datový kanál AWS?

AWS Data Pipeline je v podstatě webová služba nabízená společností Amazon, která vám pomáhá transformovat, zpracovávat a analyzovat vaše data škálovatelným a spolehlivým způsobem a také ukládat zpracovaná data do S3, DynamoDb nebo do místní databáze.

  • S datovým potrubím AWS můžete snadno přistupovat k datům z různých zdrojů.
  • Transformujte a zpracovávejte tato data v měřítku.
  • Efektivní přenos výsledků do jiných služeb, jako je S3, DynamoDb tabulka nebo v místním úložišti dat.

Základní příklad použití datového potrubí

  • Mohli bychom mít web nasazený v EC2, který generuje protokoly každý den.
  • Jednoduchý denní úkol lze zkopírovat do protokolu z E2 a dosáhnout je do kbelíku S3.
  • Týdenním úkolem by mohlo být zpracování dat a spuštění analýzy dat přes Amazon EMR za účelem generování týdenních zpráv na základě všech shromážděných údajů.

Spuštění analýzy dat pomocí datového potrubí AWS

  • Shromažďování dat z různých zdrojů dat jako - S3, Dynamodb, v místě, data senzorů atd.
  • Provádění transformace, zpracování a analýzy na AWS EMR za účelem generování týdenních zpráv.
  • Týdenní zpráva uložená v Redshift, S3 nebo v databázi premise.

Výhody datového potrubí AWS

Níže uvedené body vysvětlují výhody datového potrubí AWS:

  • Drag and Drop konzole, která je snadno pochopitelná a použitelná.
  • Distribuovaná a spolehlivá infrastruktura: Datové potrubí běží na škálovatelných službách a jsou spolehlivé, pokud dojde k chybě nebo úkolu, lze jej nastavit znovu.
  • Podporuje plánování a sledování chyb: Můžete naplánovat své úkoly a sledovat je, co se nezdařilo a úspěch.
  • Distribuované: Lze provozovat paralelně na více strojích nebo lineárně.
  • Plná kontrola nad výpočetními zdroji, jako jsou EC2, klastry EMR.

Komponenty datového potrubí AWS

Níže jsou komponenty datového potrubí AWS:

1. Definice potrubí

Převeďte obchodní logiku do datového potrubí AWS.

  • Datové uzly : Obsahuje název, umístění, formát zdroje dat, který by mohl být (S3, dynamodb, na místě)
  • Činnosti : Přesunutí, transformace nebo provádění dotazů na vaše data.
  • Plán : Naplánujte si denní nebo týdenní aktivity.
  • Předběžná podmínka : Podmínky jako spuštění kontroly dostupnosti dat plánovače u zdroje.
  • Zdroje : Vypočítejte zdroje EC2, EMR.
  • Akce : Aktualizace o datovém potrubí, oznámení o odesílání, poplach při spuštění.

2. Potrubí

Zde můžete naplánovat a spustit úkoly k provádění definovaných činností.

  • Omezovače C potrubí : Součásti potrubí jsou stejné jako součásti definice potrubí.
  • Instance: Při provádění úkolů kompiluje AWS všechny komponenty tak, aby vytvořily určité instance, na které lze reagovat. Tyto případy mají všechny informace o konkrétních úkolech.
  • Pokusy: Již jsme diskutovali o tom, jak spolehlivá je Data Pipeline se svými mechanismy opakování. Zde nastavíte, kolikrát chcete úlohu opakovat v případě, že selže.

3. Spouštěč úloh

Zeptá se na ankety nebo dotazování na úkoly z datového potrubí AWS a poté tyto úkoly provede.

Ceny datového potrubí AWS

Níže uvedené body vysvětlují cenu potrubí AWS Data:

1. Úroveň zdarma

S AWS Data Pipeline můžete začít zdarma jako součást úrovně využití AWS zdarma. Noví zákazníci, kteří se zaregistrují, získají každý měsíc několik výhod zdarma na jeden rok:

  • 3 Předpoklady nízkého kmitočtu běžícího na AWS bez jakýchkoli poplatků.
  • 5 Činnosti nízkofrekvenčního běhu na AWS bez jakéhokoli poplatku.

2. Nízká frekvence

Nízká frekvence je určena k provozu jednou za den nebo méně. Datový kanál dodržuje stejnou fakturační strategii jako ostatní webové služby AWS, tj. Účtuje se za použití. Účtuje se, jak často vaše úkoly, činnosti a předpoklady probíhají každý den a kde jsou spuštěny (AWS nebo na místě). Vysokofrekvenční činnosti jsou naplánovány na více než jednou denně.

Příklad: Můžeme naplánovat aktivitu tak, aby probíhala každou hodinu a zpracovávat protokoly webových stránek, nebo by to mohlo být každých 12 hodin. Vzhledem k tomu, že nízkofrekvenční činnosti jsou ty, které běží jednou denně nebo méně, nejsou-li splněny předpoklady; Neaktivní plynovody mají buď Neaktivní, ČEKANÉ A DOKONČENÉ stavy.

3. Ceny datového potrubí AWS jsou zobrazeny v rozumné oblasti

Region č. 1: Východ USA (N.Virginia), Západ USA (Oregon), Asie a Tichomoří (Sydney), EU (Irsko)

Vysoká frekvenceNízká frekvence
Činnosti nebo předpoklady probíhající přes AWS 1, 00 $ měsíčně 0, 06 $ měsíčně
Činnosti nebo předpoklady běžící na místě 2, 50 $ měsíčně 1, 50 $ měsíčně
Neaktivní potrubí: 1, 00 $ měsíčně

Region č. 2: Asie a Tichomoří (Tokio)

Vysoká frekvenceNízká frekvence
Činnosti nebo předpoklady probíhající přes AWS 0, 9524 $ měsíčně 0, 5715 $ měsíčně
Činnosti nebo předpoklady běžící na místě 2, 381 $ za měsíc 1 428 $ měsíčně
Neaktivní potrubí: 0, 9524 $ měsíčně

Potrubí, které by každodenní úloha, tj. Nízkofrekvenční aktivita na AWS pro přesun dat z tabulky DynamoDB do Amazonu S3, stálo 0, 60 $ měsíčně. Pokud přidáme EC2 a vytvoříme zprávu založenou na datech Amazon S3, celkové náklady na potrubí by byly 1, 20 $ měsíčně. Pokud tuto aktivitu spustíme každých 6 hodin, stálo by to 2, 00 $ měsíčně, protože by to byla vysokofrekvenční aktivita.

Závěr

AWS Data Pipeline je velmi užitečné řešení pro správu exponenciálně rostoucích dat za levnější náklady. Je velmi spolehlivý a škálovatelný podle vašeho použití. AWS Data Pipeline je velmi dobrou volbou pro dosažení všech našich obchodních cílů pro jakékoli obchodní potřeby, kde se zabývá velkým množstvím dat.

Doporučené články

Toto je průvodce datovým potrubím AWS. Zde diskutujeme o potřebách datového potrubí, co je datový plynovod AWS, jeho komponentu a podrobnosti o cenách. Další informace naleznete také v dalších souvisejících článcích -

  1. AWS EBS
  2. Databáze AWS
  3. Co je AWS EC2?
  4. Výhody vizualizace dat
  5. Top 7 konkurentů AWS s funkcemi
  6. Naučte se seznam funkcí webových služeb Amazon

Kategorie: