Co je prase?
Prase je motor s otevřeným zdrojovým kódem, který je součástí ekosystémových technologií Hadoop. Prase skvěle pracuje s daty, která přesahují tradiční databáze nebo datové sklady. To může dobře zvládnout chybějící, neúplná nebo nekonzistentní data, která nemají schéma. Prase má svůj vlastní jazyk pro vyjádření manipulace s daty, kterým je prasečí latina.
Porozumění prase
Prase je technologie, která vám umožňuje psát na vysoké úrovni, ale velmi granulární skripty, které vám umožní pracovat s daty, kde je schéma neznámé nebo nekonzistentní. Prase je technologie s otevřeným zdrojovým kódem, která běží na vrcholu Hadoopu a je součástí mimořádně živého a oblíbeného ekosystému Hadoop.
Prase dobře pracuje s nestrukturovanými a neúplnými daty, takže pro všechno nemusíte mít tradiční rozložení pravidel a sloupců.
Je dobře definovaný a může přímo pracovat na souborech v systému HDFS (Hadoop Distributed File System).
Prase bude vaší zvolenou technologií, pokud chcete získat data ze zdroje do datového skladu.
Například vizuální přehled o tom, jak data obvykle teče, než je můžete použít ke generování pěkných grafů, které používáte pro obchodní rozhodnutí.
Nezpracovaná data pocházejí z různých zdrojů, jako jsou senzory, mobilní telefony atd. Poté pomocí Pig provedete operaci ETL. ETL je zkratka pro extrakt, transformaci a načtení, jakmile jsou tyto operace provedeny, vyčištěná data jsou uložena v jiné databázi. Příkladem takové databáze by byl HDFS, který je součástí Hadoopu. Úl je datový sklad, který bude běžet na takovém systému souborů. Úl je to, co byste použili pro analýzu, generování zpráv a extrahování statistik.
ETL je velmi důležitým krokem ve zpracování dat, aby se surová data vyčistila a ve správné formě uložila do databáze. Extract označuje operaci stahování nestrukturovaných nekonzistentních dat s chybějícím polem a hodnotami z původního zdroje. Transformace znamená řadu operací, které byste na data použili, abyste je mohli vyčistit nebo získat.
Předběžný výpočet užitečných souhrnných informací, zpracování polí podle určitého formátu, to vše je součástí čištění dat transformačních polí.
Nakonec Pig provádí operaci načítání, kde jsou tato čistá data uložena v databázi, kde je lze dále analyzovat. Příkladem standardní operace, kterou provádí Pig, je vyčištění souborů protokolu.
Vysvětlete prase architekturu
V architektuře je mnoho částí prasete, raději:
- Parser : Parser se zabývá také prasečími skripty a také kontroluje syntaxi skriptu, zadá kontrolu typu a různé nejrůznější kontroly. Jejich výsledkem může být také DAG (Directed Acyclic Graph), který obvykle znamená nároky na prasečí latinu spolu s logickými operátory.
Logické operátory se skriptem budou také zobrazeny jako uzly a budou zobrazeny datové toky od hrany přes DAG.
- Optimalizátor: Později je logický plán (DAG) obvykle překročen směrem k logickému optimalizátoru. Provádí další logické optimalizace, včetně projekce, a propaguje nízké
- Kompilátor: Kompilátor také kompiluje vylepšený logický plán ve skupině MapReduce.
- Prováděcí modul : Nakonec budou všechny práce MapReduce zaúčtovány na Hadoop v rámci seřazené posloupnosti. Nakonec se vytvoří požadované výsledky, i když tyto práce MapReduce budou prováděny s Hadoop.
- MapReduce: MapReduce byl původně navržen v Google jako způsob, jak zpracovat webové stránky tak, aby umožnil vyhledávání Google. MapReduce distribuuje výpočty na více počítačích v klastru. MapReduce využívá výhod inherentního paralelismu ve zpracování dat. Moderní systémy, jako jsou senzory nebo dokonce aktualizace stavu na Facebooku, generují miliony záznamů prvotních dat.
Aktivitu s touto úrovní lze připravit ve dvou fázích:
- Mapa
- Snížit
Vy rozhodujete, jakou logiku chcete implementovat v těchto fázích pro zpracování vašich dat.
- HDFS (Distribuovaný systém souborů Hadoop): Hadoop umožňuje explozi ukládání a analýzy dat v měřítku v neomezené kapacitě. Vývojáři používají k načtení dat z HDFS aplikaci jako Pig, Hive, HBase a Spark.
Funkce
Apache Pig přichází s různými funkcemi:
- Jednoduchost programování: Pig Latin je srovnatelná s SQL, a proto je pro vývojáře docela jednoduché vytvořit Pig skript. V případě, že rozumíte jazyku SQL, je neuvěřitelně snadné naučit se prasečí latinu, protože je to stejně jako jazyk SQL.
- Bohatá sada operátorů: Prase obsahuje řadu bohatých operátorů, aby mohli provádět procedury, jako je spojení, filer, řazení a mnoho dalšího.
- Možnosti optimalizace: Výkon úlohy v Apache Pig může být okamžitě zvýšen samotnou úlohou; vývojáři se proto musí soustředit pouze na sémantiku tohoto jazyka.
- Rozšiřitelnost: S využitím přístupných operátorů mohou uživatelé jednoduše rozvíjet své funkce pro čtení, zpracování a zápis dat.
- User Define Functions (UDF's): Pomocí služby poskytované Pigem výroby UDF, bychom mohli vytvářet User Defined Functions na počtu vývojových jazyků včetně Java a také je vyvolat nebo vložit všechny do Pig Scripts.
K čemu je prase užitečné?
Používá se pro zkoumání i provádění povinností včetně zpracování ad-hoc. Prase Apache lze použít pro:
Analýza s obrovským sběrem nezpracovaných dat upřednostňuje zpracování dat, aby se získaly vyhledávací weby. Jako například Yahoo, Google využívá Apache Pig k vyhodnocení dat shromážděných prostřednictvím Google i vyhledávacích strojů Yahoo. Zpracování velkých datových sbírek, jako jsou webové záznamy, streamování online informací atd. I aktualizace stavu Facebooku generují miliony záznamů prvotních dat.
Jak vám tato technologie pomůže růst ve vaší kariéře?
Mnoho organizací implementuje Apache Pig neuvěřitelně rychle. To znamená, že profese v chovu prasat a prasat se zvyšují každý den. V posledních letech došlo k velkému pokroku ve vývoji Apache Hadoop. Prvky Hadoop stejně jako Hive, Pig, HDFS, HBase, MapReduce atd.
Ačkoli nabídky Hadoop přišly do jejich druhé dekády v této době, přesto explodovaly v uznání přes předchozí tři až čtyři roky. Velké množství softwarových společností používá klastry Hadoop neuvěřitelně běžně. To může být určitě nejlepší část velkých dat. Zaměřovací experti by se mohli proměnit v zkušenosti s touto vynikající technologií.
Závěr
Odbornost Apache Pig je na trhu velkým požadavkem a může být i nadále rozšířena. Jednoduše pochopením konceptů a získáním zkušeností s nejlepšími dovednostmi Apache Pig v dovednostech Hadoop se odborníci mohou dokonale zapojit do své profese Apache Pig.
Doporučený článek
Toto byl průvodce Co je prase? Zde jsme diskutovali o koncepcích, definicích a architektuře s vlastnostmi prasete. Další informace naleznete také v dalších navrhovaných článcích -
- Jak nainstalovat Apache
- Rozhovory s Apache PIG
- Co jsou ASP.Net webové služby?
- Co je technologie Blockchain?