Co je MapReduce v Hadoopu

MapReduce je framework společnosti Hadoop, který se používá ke spolehlivému zpracování paralelních objemů dat na velkých klastrech komoditního hardwaru. Hadoop je open-source projekt poskytovaný softwarovou nadací Apache. Hadoop používá k rychlé a spolehlivé analýze strukturovaných i nestrukturovaných dat. Hadoop umí zpracovat velmi velké datové soubory, což mohou být jak strukturovaná data, tak nestrukturovaná data, která jsou ve skutečnosti spojována s velkými daty. Hadoop framework, který umožňuje aplikaci ukládat data v distribuované formě a zpracovávat velké datové sady napříč klastry počítačů pomocí jednoduchého programovacího modelu, to je to, co Map Reduce, jinými slovy můžeme Map Reduce nazvat programovacím modelem používaným ke zpracování obrovské množství dat distribuovaných v počtu klastrů. Hadoop může škálovat od jednotlivých serverů po tisíce výpočetních uzlů nebo strojů, které každý používá pro výpočet a ukládání.

Projekt Apache Hadoop obsahuje řadu dílčích projektů jako:

  • Hadoop Common: Hadoop Common s nástroji, které podporují ostatní podprojekty Hadoop.
  • Distribuovaný systém souborů Hadoop (HDFS): Distribuovaný systém souborů Hadoop poskytuje přístup k distribuovanému souboru k aplikačním datům.
  • Hadoop MapReduce: Hadoop MapReduce je softwarový rámec pro zpracování velkých distribuovaných datových souborů na výpočetních klastrech.
  • Hadoop YARN: Hadoop YARN je rámec pro správu zdrojů a naplánování úlohy.

Jak dělá MapReduce v Hadoop práci tak snadnou?

MapReduce usnadňuje rozšiřování zpracování dat na stovkách nebo tisících klastrových strojů. Model MapReduce ve skutečnosti funguje ve dvou krocích, které se nazývají map a redukovat a zpracování se nazývá mapovač a redukce. Jakmile napíšeme MapReduce pro aplikaci, aplikace pro škálování, aby běžela přes násobky nebo dokonce několik tisíc clusterů, je pouze změnou konfigurace. Tato vlastnost modelu MapReduce přitahuje mnoho programátorů, aby ji mohli používat.

Jak funguje MapReduce v Hadoopu?

Program MapReduce se provádí hlavně ve čtyřech krocích:

  1. Vstupní rozdělení
  2. Mapa
  3. Zamíchat
  4. Snížit

Nyní uvidíme každý krok, jak fungují.

1. Mapa -

Tento krok je kombinací kroku vstupního rozdělení a kroku Map. V kroku Mapa je zdrojový soubor předán jako řádek po řádku. Před vstupním vstupem do úlohy funkce Mapa je vstup rozdělen na malou pevnou velikost nazvanou Vstupní rozdělení. Rozdělení vstupu je kus vstupu, který by mohla být spotřebována jedinou mapou. V kroku Mapa jsou všechna rozdělená data předána do funkce mapovače, poté funkce mapovače zpracuje data a poté výstupní hodnoty. Obecně platí, že vstupní data mapy nebo mapovače jsou ve formě souboru nebo adresáře, který je uložen v systému souborů Hadoop (HDFS).

2. Snižte krok-

Tento krok je kombinací kroku Shuffle a redukce. Funkce redukce nebo úloha reduktoru vezme data, která jsou výsledkem mapové funkce. Po zpracování redukcí funkce vznikne nová sada výsledků, která se opět uloží zpět do HDFS.

V rámci Hadoop není jisté, že každý klastr provádí jakou úlohu Map nebo Reduce nebo Map i Reduce. Požadavek úkolů Map a Reduce by tedy měl být odeslán na příslušné servery v klastru. Rámec Hadoop sám řídí všechny úkoly vydávání, ověřování dokončení práce, načítání dat z HDFS, kopírování dat do clusteru uzlů atd. V Hadoopu většinou probíhá výpočet na uzlech spolu s daty v uzlech samotných, což snižuje síťový provoz.

Rámec MapReduce je tedy v rámci Hadoop velmi užitečný.

Výhody MapReduce

  1. Škálovatelnost - díky MapReduce je Hadoop vysoce škálovatelný, protože umožňuje ukládat velké sady dat v distribuční formě na více serverech. Protože je distribuován napříč více, může pracovat paralelně.
  2. Nákladově efektivní řešení - MapReduce poskytuje nákladově efektivní řešení pro podniky, které potřebují ukládat rostoucí data a zpracovávat data velmi nákladově efektivním způsobem, což je dnešní obchodní potřeba.
  3. Flexibilita - Díky MapReduce je Hadoop velmi flexibilní pro různé zdroje dat a dokonce i pro různé typy dat, jako jsou strukturovaná nebo nestrukturovaná data. Díky tomu je velmi flexibilní přístup ke strukturovaným nebo nestrukturovaným datům a jejich zpracování.
  4. Rychlý - Jako úložná data Hadoop v distribuovaném souborovém systému, kterým se ukládají data na lokální disk klastru a programy MapReduce, se obvykle nacházejí také na stejných serverech, což umožňuje rychlejší zpracování dat bez nutnosti přístupu data z jiných serverů.
  5. Paralelní zpracování - Vzhledem k tomu, že data úložiště Hadoop v distribuovaném systému souborů a fungování programu MapReduce jsou takové, že dělí mapu úkolů úkolů a snižují je a mohou se provádět paralelně. A opět díky paralelnímu provedení zkracuje celou dobu běhu.

Dovednosti

Požadované dovednosti pro MapReduce v Hadoopu mají dobré programovací znalosti Java (povinné), operační systém Linux a znalost SQL dotazů.

Rozsah působnosti MapReduce v Hadoopu

MapReduce v Hadoopu je rychle rostoucí pole, protože velké datové pole roste, takže rozsah MapReduce v Hadoopu je v budoucnu velmi slibný, protože množství strukturovaných a nestrukturovaných dat exponenciálně roste každý den. Platformy sociálních médií generují mnoho nestrukturovaných dat, která lze těžit, aby získali skutečný náhled do různých domén.

Závěr

  • MapReduce je framework společnosti Hadoop, který se používá ke spolehlivému zpracování paralelních objemů dat na velkých klastrech komoditního hardwaru.
  • Projekt Apache Hadoop obsahuje řadu podprojektů jako Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
  • V kroku mapy jsou všechna rozdělená data předána do funkce mapovače, poté funkce mapovače zpracovává data a poté výstupní hodnoty.
  • Funkce redukce nebo úloha reduktoru vezme data, která jsou výsledkem funkce mapy.
  • Výhody MapReduce jsou uvedeny jako škálovatelnost, nákladově efektivní řešení, flexibilita, rychlé a paralelní zpracování.

Doporučené články

Toto byl průvodce Co je MapReduce v Hadoopu. Zde jsme diskutovali o komponentách, práci, dovednostech, kariérním růstu a výhodách MapReduce v Hadoopu. Další informace naleznete také v dalších navrhovaných článcích

  1. Co je to algoritmus?
  2. Rozdíly mezi Hadoopem a MapReduce
  3. Co je Azure?
  4. Co je technologie velkých dat?
  5. Jak MapReduce funguje

Kategorie: