Úvod do souborů R CSV

Soubory CSV se běžně používají k ukládání informací v tabulkovém formátu, přičemž každý řádek je záznamem dat. Abychom mohli číst, psát nebo manipulovat s daty v R, musíme mít k dispozici některá data. Data lze nalézt na internetu nebo je lze získat z různých zdrojů, jako jsou průzkumy. Pomocí R lze číst, psát a upravovat data uložená v externím prostředí. R umí číst a zapisovat data z různých formátů, jako je XML, CSV a Excel. V tomto článku se podíváme, jak lze R použít ke čtení, zápisu a provádění různých operací se soubory CSV.

Vytváření souboru CSV v R

V této části se podíváme, jak lze datový rámec vytvořit a exportovat do souboru CSV v R. V první části vytvoříme datový rámec, který se skládá z proměnných zaměstnanec a příslušného platu.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

Jakmile je datový rámec vytvořen, je čas, abychom použili exportní funkci R k vytvoření CSV souboru v R. Aby bylo možné exportovat datový rámec do CSV, můžeme použít níže uvedený kód.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

Ve výše uvedeném řádku kódu jsme poskytli adresář cesty pro naši datovou slávu a uložili dataframe ve formátu CSV. Ve výše uvedeném případě byl soubor CSV uložen na mou osobní plochu. Tento konkrétní soubor bude použit v našem tutoriálu pro provádění více operací.

Čtení souborů CSV v R

Při provádění analýzy pomocí R jsme v mnoha případech povinni číst data ze souboru CSV. R je velmi spolehlivý při čtení souborů CSV. Ve výše uvedeném příkladu jsme vytvořili soubor, který použijeme ke čtení pomocí příkazu read.csv. Níže je uveden příklad, jak toho dosáhnout v R.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Výše uvedený příkaz přečte soubor Employee.csv, který je k dispozici na ploše a zobrazí jej v R studio. Příkaz záhlaví znamená, že záhlaví je k dispozici pro datovou sadu a příkaz sep znamená, že data jsou oddělena čárkami.

Zapisujte soubory CSV do R

Zápis do souboru CSV je jednou z nejužitečnějších funkcí dostupných v R pro datového analytika. To lze použít k zápisu upraveného souboru CSV do nového souboru CSV za účelem analýzy dat. Příkaz Write.csv se používá k zápisu souboru do CSV.

V níže uvedeném kódu df v datovém rámci, ve kterém jsou naše data k dispozici, se připojením určuje, že nový soubor je vytvořen místo připojování nebo přepisování ve starém souboru. Připojit false navrhuje nový soubor CSV. Sep představuje pole oddělené čárkou.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

Provoz CSV

Operace CSV jsou vyžadovány pro kontrolu dat, jakmile jsou načtena do systému. R má několik vestavěných funkcí pro ověření a kontrolu dat. Tyto operace poskytují úplné informace týkající se souboru dat.

Jedním z nejčastěji používaných příkazů je shrnutí.

> summary(df)

Příkaz shrnutí nám poskytuje statistiku sloupců. Numerická proměnná je popsána statistickým způsobem, který zahrnuje statistické výsledky jako průměr, min, medián a max. Ve výše uvedeném příkladu jsou oddělené dvě proměnné, kterými jsou Zaměstnanec a Plat, a jsou nám ukázány statistiky pro numerickou proměnnou, kterou je Mzda.

Příkaz View () se používá k otevření datové sady na jiné kartě a ověření ručně.

> View(df)

Funkce Str poskytne uživatelům další podrobnosti týkající se sloupce datové sady. V níže uvedeném příkladu vidíme, že proměnná Employee má jako datový typ Factor a proměnná Salary má jako datový typ int (integer).

> str(df)

V mnoha případech budeme muset vidět celkový počet dostupných řádků v případě velkého datového souboru, pro který můžeme použít příkaz nrow (). Viz níže uvedený příklad.

> # to show the total number of rows in the dataset
> nrow(df)

Podobným způsobem, jak zobrazit celkový počet sloupců, můžeme použít příkaz ncol ()

> ncol(df)

R nám umožňuje zobrazit požadovaný počet řádků pomocí příkazu níže. Když je jejich počet řádků k dispozici v datové sadě, můžeme určit rozsah řádků, které se mají zobrazit.

> # to display first 2 rows of the data
> df(1:2, )

Operace dat se provádí na velkém datovém souboru. Pro ilustraci jsem stáhl datový soubor s otevřeným zdrojovým kódem NI z internetu.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

Ve výše uvedené sadě dat vidíme, že chybí názvy záhlaví a existuje mnoho nulových hodnot. Aby byl datový soubor připraven k analýze, musí být vyčištěn. V dalším kroku budou záhlaví odpovídajícím způsobem pojmenována.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Nyní spočítáme počet chybějících hodnot v datovém rámci a podle toho je odeberte.

> # count of all missing values
> table(is.na (NiPostCode))

Z výše uvedeného příkazu vidíme, že celkový počet mezer nebo NA v datovém rámci je blízko 5445148. Odstranění všech nulových hodnot povede ke ztrátě obrovského množství dat, proto je moudré odstranit sloupce, kde je více než polovina 50% dat chybí.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

Závěr

V tomto tutoriálu jsme viděli, jak lze soubory CSV vytvářet, číst a přidávat pomocí operací v R. Naučili jsme se, jak vytvořit nový dataset v R a poté jej importovat do formátu CSV. Dále jsme viděli několik operací, jako je přejmenování záhlaví a počítání počtu řádků a sloupců.

Doporučené články

Toto je průvodce soubory R CSV. Zde diskutujeme o vytváření, čtení a zápisu CSV souboru v R s CSV Operations. Další informace naleznete také v následujícím článku -

  1. JSON vs CSV
  2. Proces dolování dat
  3. Kariéra v analýze dat
  4. Excel vs CSV

Kategorie: