Úvod do AWS EMR

AWS EMR poskytuje mnoho funkcí, které nám usnadňují práci, některé z těchto technologií jsou:

  1. Amazon EC2
  2. Amazon RDS
  3. Amazon S3
  4. Amazon CloudFront
  5. Amazon Auto Scaling
  6. Amazon Lambda
  7. Amazon Redshift
  8. Amazon Elastic MapReduce (EMR)

Jednou z hlavních služeb poskytovaných AWS EMR a budeme se zabývat, je Amazon EMR.

EMR, běžně nazývaná Elastic Map Reduce, přichází se snadným a přístupným způsobem, jak se vypořádat se zpracováním větších kusů dat. Představte si velký datový scénář, kde máme obrovské množství dat a provádíme nad nimi řadu operací, řekněme, že je spuštěna úloha Map-Reduce, jedním z hlavních problémů, kterým aplikace Bigdata čelí, je vyladění programu, často je obtížné doladit náš program takovým způsobem, aby byl veškerý přidělený zdroj správně spotřebován. Díky výše uvedenému faktoru ladění se čas potřebný ke zpracování postupně zvyšuje. Elastic Map Omezte službu Amazon, je webová služba, která poskytuje rámec, který spravuje všechny tyto nezbytné funkce potřebné pro zpracování velkých dat nákladově efektivním, rychlým a bezpečným způsobem. Od vytváření klastrů až po distribuci dat v různých případech jsou všechny tyto věci snadno spravovány v rámci Amazon EMR. Tyto služby jsou na vyžádání, což znamená, že můžeme kontrolovat čísla na základě údajů, která máme, pokud je nákladově efektivní a škálovatelná.

Důvody pro použití AWS EMR

Proč používat AMR, co je lepší od ostatních. Často se setkáváme s velmi základním problémem, kdy nejsme schopni alokovat všechny zdroje dostupné v klastru na jakoukoli aplikaci, AMAZON EMR se o tyto problémy postará a na základě velikosti dat a požadavku aplikace přidělí potřebný zdroj. Také díky tomu, že jsme v přírodě pružní, můžeme to odpovídajícím způsobem změnit. EMR má obrovskou podporu aplikací, ať už je to Hadoop, Spark, HBase, což usnadňuje zpracování dat. Podporuje různé operace ETL rychle a levně. Může být také použit pro MLIB ve Spark. V něm můžeme provádět různé algoritmy strojového učení. Ať už se jedná o dávková data nebo datové proudy v reálném čase, EMR je schopen organizovat a zpracovávat oba typy dat.

Fungování AWS EMR

Nyní se podívejme na tento diagram klastru Amazon EMR a pokusíme se pochopit, jak to vlastně funguje:

Následující obrázek znázorňuje distribuci clusterů uvnitř EMR. Podívejme se na to podrobně:

1. Klastry jsou ústřední součástí architektury EMR společnosti Amazon. Jedná se o sbírku instancí EC2 nazvaných Uzly. Každý uzel má své specifické role v rámci klastru označované jako typ uzlu a na základě jejich rolí je můžeme klasifikovat do 3 typů:

  • Hlavní uzel
  • Hlavní uzel
  • Uzel úkolu

2. Hlavní uzel, jak název napovídá, je hlavní, který je zodpovědný za správu klastru, spouštění komponent a distribuci dat přes uzly ke zpracování. Sleduje pouze to, zda je vše řádně spravováno a funguje dobře a zda funguje v případě selhání.

3. Hlavní uzel je zodpovědný za spuštění úlohy a za uložení dat do HDFS v klastru. Všechny zpracovávané části jsou zpracovávány jádrovým uzlem a data po tomto zpracování jsou umístěna do požadovaného umístění HDFS.

4. Volitelný uzel úlohy má pouze úlohu pro spuštění úlohy, která neuloží data do HDFS.

5. Kdykoli po odeslání úlohy máme několik způsobů, jak vybrat, jak budou práce dokončeny. Jelikož je to od ukončení klastru po dokončení úlohy do dlouhodobě fungujícího klastru pomocí konzoly EMR a CLI k odeslání kroků, máme k tomu všechna oprávnění.

6. Můžeme přímo spustit úlohu na EMR jejím propojením s hlavním uzlem prostřednictvím dostupných rozhraní a nástrojů, které spouštějí úlohy přímo v klastru.

7. Můžeme také spustit naše data v různých krocích pomocí EMR, vše, co musíme udělat, je odeslat jeden nebo více uspořádaných kroků v klastru EMR. Data jsou uložena jako soubor a jsou zpracovávány postupně. Po spuštění z „Čekajícího stavu do dokončeného stavu“ můžeme sledovat kroky zpracování a najít chyby také z „Nepodařilo se zrušit“ všechny tyto kroky lze snadno vysledovat zpět k tomuto.

8. Po ukončení celé instance je dosaženo dokončeného stavu pro klastr.

Architektura pro AWS EMR

Architektura EMR se představí od části úložiště po část Aplikace.

  • První vrstva přichází s úložnou vrstvou, která zahrnuje různé systémy souborů používané v našem klastru. Ať už jde o HDFS až EMRFS až po lokální souborový systém, všechny se používají pro ukládání dat v celé aplikaci. Ukládání mezilehlých výsledků během zpracování MapReduce lze dosáhnout pomocí těchto technologií, které přicházejí s EMR.
  • Druhá vrstva je dodávána se Správou prostředků pro klastr, tato vrstva je zodpovědná za správu prostředků pro klastry a uzly v aplikaci. To v podstatě pomáhá jako nástroje pro správu, které pomáhají rovnoměrně distribuovat data přes klastr a řádnou správu. Výchozí nástroj pro správu prostředků, který EMR používá, je YARN, který byl představen v Apache Hadoop 2.0. Centrálně spravuje zdroje pro více rámců pro zpracování dat. Postará se o všechny informace, které jsou potřebné pro řádný chod klastru, a to od stavu uzlu po distribuci prostředků pomocí správy paměti.
  • Třetí vrstva přichází s rámcem pro zpracování dat, tato vrstva je zodpovědná za analýzu a zpracování dat. existuje mnoho rámců podporovaných EMR, které hrají důležitou roli v paralelním a účinném zpracování dat. Nějaký rámec, který podporuje, a my víme, že je APACHE HADOOP, SPARK, SPARK STREAMING atd.
  • Čtvrtá vrstva přichází s aplikací a programy jako HIVE, PIG, streamovací knihovna, ML Algoritmy, které jsou užitečné pro zpracování a správu velkých datových souborů.

Výhody AWS EMR

Podívejme se nyní na některé výhody používání EMR:

  1. Vysoká rychlost: Protože jsou všechny zdroje využívány správně, je doba zpracování dotazu poměrně rychlejší, než ostatní nástroje pro zpracování dat mají mnohem jasnější obrázek.
  2. Hromadné zpracování dat: Být větší velikost dat EMR má schopnost zpracování obrovského množství dat v dostatečném čase.
  3. Minimální ztráta dat: Protože jsou data distribuována v klastru a zpracovávána paralelně v síti, existuje minimální šance na ztrátu dat a dobře, rychlost přesnosti zpracovaných dat je lepší.
  4. Nákladově efektivní: je nákladově efektivní a je levnější než jakákoli jiná dostupná alternativa, díky které je silnější ve srovnání s průmyslovým využitím. Vzhledem k tomu, že ceny jsou nižší, můžeme pojmout velké množství dat a zpracovat je v rámci rozpočtu.
  5. AWS Integrated: Je integrován se všemi službami AWS, které umožňují snadnou dostupnost pod střechou, takže zabezpečení, úložiště, síťové propojení je vše integrováno na jednom místě.
  6. Zabezpečení: Přichází s úžasnou skupinou zabezpečení, která řídí příchozí a odchozí provoz. Také použití rolí IAM je bezpečnější, protože přichází s různými oprávněními, která zajišťují bezpečnost dat.
  7. Monitorování a nasazení: Máme vhodné monitorovací nástroje pro všechny aplikace, které běží přes klastry EMR, což usnadňuje průhlednost a snadnost analýzy, a přichází také s funkcí automatického nasazení, kde je aplikace automaticky konfigurována a nasazena.

Existuje mnohem více výhod, které mají EMR jako lepší volbu jiné metody výpočtu clusteru.

Ceny AWS EMR

EMR přichází s úžasným seznamem cen, který přitahuje vývojáře nebo trh k němu. Protože přichází s funkcí ceny na vyžádání, můžeme ji použít jen přes hodinovou základnu a počet uzlů v našem klastru. Za každou sekundu, kterou používáme, můžeme zaplatit sazbu za sekundu s minimem jedné minuty. Můžeme si také vybrat naše instance, které budou použity jako vyhrazené nebo okamžité instance, přičemž spot je značně úsporný.

Celkový účet můžeme vypočítat pomocí jednoduché měsíční kalkulačky z následujícího odkazu: -

https://calculator.s3.amazonaws.com/index.html#s=EMR

Více informací o přesných podrobnostech o cenách najdete v dokumentu Amazon:

https://aws.amazon.com/emr/pricing/

Závěr

Z výše uvedeného článku jsme viděli, jak lze EMR použít pro korektní zpracování velkých dat, přičemž všechny zdroje jsou využívány konvenčně.

Mít EMR řeší náš základní problém zpracování dat a zkracuje dobu zpracování o dobré číslo, protože je nákladově efektivní, je snadné a pohodlné použití.

Doporučený článek

Toto byl průvodce AWS EMR. Zde diskutujeme úvod do AWS EMR podél jeho práce a architektury, stejně jako výhody. Další informace naleznete také v dalších navrhovaných článcích -

  1. Alternativy AWS
  2. Příkazy AWS
  3. Služby AWS
  4. Interview Otázky AWS
  5. AWS Storage Services
  6. Top 7 konkurentů AWS
  7. Seznam funkcí webových služeb Amazon

Kategorie: