Přehled komponent jisker
Představte si, že máte po ruce 1000 úkolů a velmi málo času na dokončení všech. Někdo vám nabízí pomoc tím, že poskytuje zdroje, které vám mohou některé úkoly sundat z ruky a provádět je paralelně s vámi, aby byly všechny úkoly dokončeny včas. Že někdo je pro vás Spark v počítačovém slova smyslu. Apache Spark je open-source a distribuovaný klastrový výpočetní framework pro Big Data a poskytuje optimalizovaný přístup pro provádění analýz na velkých souborech dat. Funguje to stokrát rychleji než Hadoop a poskytuje různé knihovny pro různé účely, jako je provádění operací SQL, ML, streamování, zpracování grafů atd. Níže níže podrobně uvidíme různé komponenty jisker.
Špičkové komponenty jisker
V současné době máme 6 komponent v ekosystému Spark, kterými jsou Spark Core, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX a SparkR. Uvidíme, co každá z těchto složek dělá.
1. Spark Core
Spark Core je, jak název napovídá, základní jednotkou procesu Spark. Postará se o plánování úkolů, zotavení po poruše, správu paměti a operace vstup-výstup atd. Ber to jako něco podobného CPU k počítači. Podporuje programovací jazyky jako Java, Scala, Python a R a poskytuje API pro jednotlivé jazyky, pomocí kterých si můžete sestavit svou ETL úlohu nebo provádět analytiku. Všechny ostatní komponenty Spark mají vlastní API, která jsou postavena na Spark Core. Díky možnosti paralelního zpracování a výpočtu v paměti dokáže Spark zvládnout jakoukoli pracovní zátěž.
Spark Core přichází se speciální datovou strukturou zvanou RDD (Resilient Distributed Dataset), která distribuuje data do všech uzlů v klastru. RDD pracují na paradigmatu Lazy Evaluation, kde je výpočet zapamatován a proveden pouze v případě potřeby. To pomáhá při optimalizaci procesu pouze výpočtem potřebných objektů.
2. Spark SQL
Pokud jste pracovali s databázemi, chápete důležitost SQL. Nebylo by nesmírně ohromující, kdyby stejný kód SQL fungoval Nkrát rychleji i na větším datovém souboru? Spark SQL vám pomůže manipulovat s daty Spark pomocí SQL. Podporuje připojení JDBC a ODBC, které navazují vztah mezi objekty Java a existujícími databázemi, datovými sklady a nástroji business intelligence. Spark zahrnuje něco, co se nazývá Dataframes, což je strukturovaný sběr dat ve formě sloupců a řádků.
Spark umožňuje pracovat na těchto datech pomocí SQL. Datové rámce jsou ekvivalentní relačním tabulkám a lze je sestavit z libovolných externích databází, strukturovaných souborů nebo již existujících RDD. Dataframes mají všechny funkce RDD, jako je neměnná, odolná, in-memory, ale navíc se strukturovanou a snadno se s ní pracuje. Dataframe API je k dispozici také v programech Scala, Python, R a Java.
3. Spark Streaming
Streamování dat je technika, při které se zpracovává nepřetržitý proud dat v reálném čase. Vyžaduje rámec, který nabízí nízkou latenci pro analýzu. Spark Streaming poskytuje toto a také vysokou propustnost, odolnost proti chybám a škálovatelné API pro zpracování dat v reálném čase. Je odebírán na diskrétním toku (DStream), který představuje tok dat rozdělený do malých dávek. DStream je postaven na RDD, takže Spark Streamování funguje hladce s dalšími komponenty jisker. Někteří z nejvýznamnějších uživatelů Spark.
Streamování je Netflix, Pinterest a Uber. Spark Streaming může být integrován s Apache Kafka, což je platforma pro oddělení a ukládání do vyrovnávací paměti pro vstupní toky. Kafka funguje jako centrální rozbočovač pro proudy v reálném čase, které jsou zpracovávány pomocí algoritmů v programu Spark Streaming.
4. Spark MLLib
Hlavním lákadlem Spark je masivní rozšiřování výpočtu a tato vlastnost je nejdůležitějším požadavkem jakéhokoli projektu strojového učení. Spark MLLib je součást strojového učení Spark, která obsahuje algoritmy strojového učení, jako je klasifikace, regrese, shlukování a kolaborativní filtrování. Nabízí také místo pro extrakci prvků, zmenšení rozměrů, transformaci atd.
Také můžete své modely ukládat a spouštět je na větších souborech dat, aniž byste se museli starat o problémy s dimenzováním. Obsahuje také obslužné programy pro lineární algebru, statistiky a zpracování dat. Díky Sparkově zpracování paměti, odolnosti proti chybám, škálovatelnosti a snadnosti programování můžete pomocí této knihovny snadno spouštět iterační algoritmy ML.
5. GraphX
Graph Analytics v zásadě určuje vztahy mezi objekty v grafu, například nejkratší vzdálenost mezi dvěma body. To pomáhá optimalizovat trasu. Spark GraphX API pomáhá při výpočtu grafu a grafu. Zjednodušuje grafovou analýzu a činí ji rychlejší a spolehlivější. Jednou z hlavních a dobře známých aplikací grafové analýzy je Google Maps.
Zjišťuje vzdálenost mezi dvěma místy a poskytuje optimální návrh trasy. Dalším příkladem mohou být návrhy přítele z Facebooku. GraphX pracuje s grafy i výpočty. Spark nabízí řadu grafických algoritmů, jako je hodnocení stránek, připojené komponenty, propagace štítků, SVD ++, silně připojené komponenty a počet trojúhelníků.
6. SparkR
R je nejpoužívanější statistický jazyk, který zahrnuje více než 10 000 balíčků pro různé účely. Používal rozhraní API datových rámců, díky kterému je výhodné s nimi pracovat, a také poskytuje výkonné vizualizace pro vědce dat, kteří důkladně analyzují svá data. R však nepodporuje paralelní zpracování a je omezen na množství paměti dostupné v jednom počítači. To je místo, kde SparkR přichází na obrázek.
Spark vyvinul balíček známý jako SparkR, který řeší problém škálovatelnosti R. Je založen na distribuovaných datových rámcích a také poskytuje stejnou syntaxi jako distribuovaný procesor zpracování R. Spark a R je bezkonkurenční interaktivita, balíčky a vizualizace se spojují, aby poskytly Data Scientists co chtějí pro své analýzy.
Závěr
Protože Spark je univerzální rámec, nachází se v široké škále aplikací. Spark je široce používán ve většině velkých datových aplikací kvůli svému výkonu a spolehlivosti. Všechny tyto komponenty Spark jsou aktualizovány s novými funkcemi v každé nové verzi a usnadňují náš život.
Doporučené články
Toto je průvodce komponenty Spark. Zde diskutujeme přehled a 6 hlavních komponent jiskry s podrobným vysvětlením. Další informace naleznete také v následujících článcích -
- Top 5 důležitých alternativ úlu
- Součásti / nástroje Talend Open Studio
- Prvních 6 komponent ekosystému IoT
- Co je integrace dat Talend s výhodami?