Grafy v R - Typy grafů v R a příklady s implementací

Obsah:

Anonim

Úvod do grafů v R

Graf je nástroj, který významně odlišuje analýzu. Grafy v Vzácné jsou důležité, protože pomáhají prezentovat výsledky nej interaktivnějším způsobem. R, jako statistický programovací balíček, nabízí rozsáhlé možnosti pro generování různých grafů.

Některé grafy v R jsou k dispozici v základní instalaci, ale jiné lze použít instalací požadovaných balíčků. Unikátní vlastností grafů v R je to, že vysvětlují složité statistické nálezy prostřednictvím vizualizace. V zásadě je to jako přesunout se o krok nad tradiční způsob vizualizace dat. R tedy nabízí přímý přístup k analýze pohonů.

Typy grafů v R

V R je k dispozici celá řada grafů a použití se řídí výhradně kontextem. Průzkumná analýza však vyžaduje použití určitých grafů v R, které musí být použity pro analýzu dat. Nyní se podíváme na některé z těchto důležitých grafů v R.

Pro demonstraci různých grafů použijeme datový soubor „stromy“ dostupný v základní instalaci. Další podrobnosti o souboru dat lze zjistit pomocí? příkazy stromů v R.

1. Histogram

Histogram je grafický nástroj, který pracuje s jedinou proměnnou. Četné hodnoty proměnných jsou seskupeny do přihrádek a počet hodnot se označuje jako frekvence. Tento výpočet se potom použije k vykreslení frekvenčních sloupců v příslušných fazolí. Výška sloupce je reprezentována frekvencí.

V R můžeme použít hist () funkci, jak je ukázáno níže, pro vygenerování histogramu. Níže je uveden jednoduchý histogram výšek stromů.

Kód:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Výstup:

Abychom porozuměli trendu frekvence, můžeme nad výše uvedený histogram přidat graf hustoty. To poskytuje další vhled do distribuce dat, skewness, kurtosis, atd. Následující kód to dělá, a výstup je zobrazen za kódem.

Kód:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Výstup:

2. Rozptyl

Tento graf je jednoduchým typem grafu, ale velmi důležitým grafem, který má obrovský význam. Graf podává představu o korelaci mezi proměnnými a je užitečným nástrojem v průzkumné analýze.

Následující kód generuje jednoduchý Scatterplotův graf. Přidali jsme do něj trendovou čáru, abychom pochopili trend, který data představují.

Kód:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Výstup:

Graf vytvořený následujícím kódem ukazuje, že existuje dobrá korelace mezi obvodem stromu a objemem stromu.

Kód:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Výstup:

Rozptylové matice

R nám umožňuje porovnat více proměnných najednou, protože používá rozptýlené matice. Implementace vizualizace je poměrně jednoduchá a lze ji dosáhnout pomocí funkce párů (), jak je ukázáno níže.

Kód:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Výstup:

Scatterplot3d

Umožňují vizualizaci ve třech rozměrech, což může pomoci pochopit vztah mezi více proměnnými. Abychom zpřístupnili scatterploty ve 3d, musí být nejprve nainstalován balíček scatterplot3d. Následující kód tedy generuje 3d graf, jak je znázorněno pod kódem.

Kód:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Výstup:

Pomocí níže uvedeného kódu můžeme přidat čáry a barvy. Nyní můžeme pohodlně rozlišovat mezi různými proměnnými.

Kód:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Výstup:

3. Boxplot

Boxplot je způsob vizualizace dat prostřednictvím polí a vousů. Nejprve jsou proměnné hodnoty seřazeny vzestupně a poté jsou data rozdělena do čtvrtin.

Pole v grafu představuje polovinu 50% dat, známých jako IQR. Černá čára v poli představuje střední hodnotu.

Kód:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Výstup:

Varianta boxplot se zářezy je znázorněna níže.

Kód:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Výstup:

4. Čárový graf

Čárové grafy jsou užitečné při porovnávání více proměnných. Pomáhají nám vztah mezi více proměnnými v jediném grafu. Na následujícím obrázku se pokusíme porozumět trendu tří funkcí stromu. Takže, jak je ukázáno v níže uvedeném kódu, na začátku a čárový graf pro Girth je vykreslen pomocí funkce plot (). Poté jsou liniové grafy pro výšku a objem vykresleny na stejném grafu pomocí funkce lines ().

Parametr „ylim“ v grafu () byl, aby správně vyhovoval všem třem grafům. Zde je důležité mít legendu, protože pomáhá pochopit, která řádka představuje kterou proměnnou. V legendě „lty = 1: 1“ parametr znamená, že máme stejný typ řádku pro všechny proměnné a „cex“ představuje velikost bodů.

Kód:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Výstup:

5. Dot plot

Tento vizualizační nástroj je užitečný, pokud chceme porovnat více kategorií s určitým měřítkem. Pro ilustraci níže byl použit datový soubor mtcars. Funkce dotchart () vykresluje posunutí pro různé modely automobilů, jak je uvedeno níže.

Kód:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Výstup:

Teď nyní uspořádáme datový soubor podle hodnot posunutí a potom je vykreslíme pomocí různých teček pomocí funkce dotchart ().

Kód:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Výstup:

Závěr

Analytika ve skutečném smyslu je využívána pouze prostřednictvím vizualizací. R jako statistický nástroj nabízí silné vizualizační schopnosti. Četné možnosti spojené s grafy jsou tedy důvodem, proč jsou speciální. Každý z grafů má svou vlastní aplikaci a graf by měl být prostudován před použitím na problém.

Doporučené články

Toto je průvodce grafy v R. Zde diskutujeme o úvodu a typech grafů v R, jako jsou histogram, scatterplot, boxplot a mnohem více spolu s příklady a implementací. Další informace naleznete také v následujících článcích -

  1. R Datové typy
  2. R Balíčky
  3. Úvod do Matlabu
  4. Grafy vs grafy