Spark DataFrame - Různé operace DataFrame s příkladem

Úvod do Spark DataFrame

O datovém rámci jiskry lze říci, že jde o distribuovaný sběr dat, který je uspořádán do pojmenovaných sloupců a který se také používá k provádění operací, jako je filtrování, výpočet agregací, seskupování a lze jej také použít se Spark SQL. Datové rámce lze vytvořit pomocí strukturovaných datových souborů, společně s existujícími RDD, externími databázemi a tabulkami podregistrů. V zásadě se nazývá abstrakční vrstva, která je postavena na vrcholu RDD a je za ní také datové množiny API, které bylo zavedeno v novějších verzích Spark (2.0 +). Navíc nebyly datové sady zavedeny v Pysparku, ale pouze v Scala s Sparkem, ale v případě Dataframes tomu tak nebylo. Datové rámce obecně známé jako DF jsou logické sloupcové formáty, které usnadňují a usnadňují práci s RDD, a stejným způsobem využívají stejné funkce jako RDD. Pokud budete mluvit více na koncepční úrovni, je to ekvivalentní relačním tabulkám spolu s dobrými optimalizačními funkcemi a technikami.

Jak vytvořit DataFrame?

Datový rámec je obecně vytvořen některou z uvedených metod. Lze jej vytvořit pomocí tabulek Hive, externích databází, strukturovaných datových souborů nebo dokonce v případě existujících RDD. Všechny tyto způsoby mohou vytvořit tyto pojmenované sloupce známé jako Dataframes používané pro zpracování v Apache Spark. Použitím aplikací SQLContext nebo SparkSession lze použít k vytvoření datových rámců.

Spark DataFrames Operations

Ve Spark je datový rámec distribuce a shromažďování organizované formy dat do pojmenovaných sloupců, což je ekvivalentní relační databázi nebo schématu nebo datovému rámci v jazyce, jako je R nebo python, ale spolu s bohatší úrovní optimalizací být použit. Používá se k poskytnutí specifického druhu domény jazyka, který by mohl být použit pro manipulaci se strukturovanými daty.

Níže jsou uvedeny některé základní operace zpracování strukturovaných dat pomocí datových rámců.

1. Čtení dokumentu typu: JSON: Využíváme příkaz sqlContext.read.json.

Příklad: Předpokládejme, že náš název souboru je student.json, potom bude náš kód vypadat takto:
val dfs= sqlContext.read.json(“student.json”)

Výstup: V tomto případě bude výstupem to, že názvy polí budou automaticky převzaty ze souboru student.json.

2. Zobrazení dat: Abyste mohli vidět data v datových rámcích Spark, budete muset použít příkaz:
dfs.show ()

Příklad: Předpokládejme, že náš název souboru je student.json, potom bude náš kód vypadat takto:
val dfs= sqlContext.read.json(“student.json”) dfs.show()

Výstup: Údaje o studentovi se zobrazí v tabulkovém formátu.

3. Použití metody printSchema: Pokud máte zájem vidět strukturu, tj. Schéma datového rámce, použijte následující příkaz: dfs.printSchema ()

Příklad: Předpokládejme, že náš název souboru je student.json, potom bude náš kód vypadat takto:

val dfs= sqlContext.read.json(“student.json”) dfs. printSchema ()

Výstup: Struktura nebo schéma se vám zobrazí

4. Použijte metodu select: Chcete-li použít metodu select, bude k načtení jmen a sloupců ze seznamu datových rámců použit následující příkaz.
dfs.select („název sloupce“). show ()

Příklad: Předpokládejme, že náš název souboru je student.json, potom bude náš kód vypadat takto:
val dfs= sqlContext.read.json(“student.json”) dfs.select(“name”).show()

Výstup: Lze zobrazit hodnoty ve sloupci názvu.

5. Použití filtru věku: Následující příkaz lze použít k nalezení okruhu studentů, jejichž věk je více než 23 let.
dfs.filter (dfs („název-sloupce“)> hodnota) .show ()

Příklad: Předpokládejme, že náš název souboru je student.json, potom bude náš kód vypadat takto:
val dfs= sqlContext.read.json(“student.json”) dfs.filter(dfs(“age”)>23).show()

Výstup: Ve výsledcích se objeví filtrovaný věk delší než 23 let.

6. Použití metody groupBy: Následující metodu lze použít k výpočtu počtu studentů, kteří mají stejný věk.
dfs.groupBy („název sloupce“). count (). show ()

Příklad: Předpokládejme, že náš název souboru je student.json, potom bude náš kód vypadat takto:
val dfs= sqlContext.read.json(“student.json”) dfs.groupBy(“age”).count().show()

7. Použití funkce SQL na SparkSession, která umožňuje aplikaci provádět dotazy typu SQL programově, a vrací tedy výsledek ve formě datového rámce.
spark.sql (dotaz)

Příklad: Předpokládejme, že musíme zaregistrovat datový rámec SQL jako dočasné zobrazení, pak:
df.createOrReplaceTempView(“student”) sqlDF=spark.sql(“select * from student”) sqlDF.show()

Výstup: Dočasný pohled bude vytvořen podle jména studenta a na něj bude aplikována spark.sql, která jej převede do datového rámce.

8. Použití funkce SQL na Spark Session pro globální dočasné zobrazení: To umožňuje aplikaci provádět dotazy typu SQL programově a tím vrací výsledek ve formě datového rámce.
spark.sql (dotaz)

Příklad: Předpokládejme, že musíme zaregistrovat datový rámec SQL jako dočasné zobrazení, pak:
df.createGlobalTempView(“student”) park.sql(“select * from global_temp.student”).show() spark.newSession().sql(“Select * from global_temp.student”).show()

Výstup: Dočasný pohled bude vytvořen podle jména studenta a na něj bude aplikována spark.sql, která jej převede do datového rámce.

Výhody Spark DataFrame

Datový rámec je distribuovaná kolekce Data, a proto jsou data uspořádána podle názvu s názvem sloupce.
V případě relačních databází jsou víceméně podobné tabulce a mají bohatou sadu optimalizací.
Dataframes se používají k posílení dotazů napsaných v SQL a také API datového rámce
Může být použit ke zpracování jak strukturovaných, tak nestrukturovaných dat.
Použití optimalizátoru katalyzátoru usnadňuje a zefektivňuje optimalizaci.
Knihovny jsou přítomny v mnoha jazycích, jako jsou Python, Scala, Java a R.
To se používá k zajištění silné kompatibility s Úl a používá se ke spuštění nemodifikovaných dotazů Úlu v již existujícím skladu úlů.
Měří se velmi dobře od několika kbs v osobním systému po mnoho petabytů na velkých shlucích.
Používá se k zajištění snadné úrovně integrace s dalšími velkými datovými technologiemi a rámci.
Abstrakce, kterou poskytují RDD, je efektivní a zrychluje zpracování.

Závěr - Spark DataFrame

V tomto příspěvku jste se naučili velmi důležitou vlastnost Apache Spark, která představuje datové rámce a jejich použití v aplikacích běžících dnes spolu s operacemi a výhodami. Doufám, že se vám náš článek líbil. Zůstaňte naladěni pro více podobných.

Doporučené články

Toto byl průvodce Spark DataFrame. Zde diskutujeme o tom, jak vytvořit DataFrame? jeho výhody a různé operace DataFrames spolu s příslušným ukázkovým kódem. Další informace naleznete také v dalších navrhovaných článcích -