Úvod do značení Boxplot v R

Štítky Boxplot pomáhají při vizualizaci distribuovaných dat v R. Graf představuje průměr, střední hodnotu a rozptyl. Hodnoty jsou uvedeny jako vstup do funkce boxplot (). Funkce Boxplot () vytvoří boxplot pomocí zadaných vstupních dat. Boxplot lze vytvořit pro jednotlivé proměnné nebo skupinu.

Vykreslení grafu boxplot

  • Potřebujeme pět hodnotných vstupů, jako je průměr, rozptyl, medián, první a třetí kvartil.
  • Identifikace, zda jsou v datech nějaké odlehlé hodnoty.
  • Navrhněte model pro vykreslení dat.

Parametry ve funkci boxplot ()

  1. vzorec: Tento parametr umožňuje rozlit číselné hodnoty do několika skupin.
  2. Data :: Vstupní data, která obsahují buď datový rámec, nebo seznam.
  3. Podmnožina: Volitelný vektorový parametr k určení podmnožiny pro vykreslování.
  4. xlab: anotace osy x
  5. ylab: an -osa y.
  6. range: range určuje rozšíření grafu.
  7. akce: zadejte, co se stane, když bude mít nulovou hodnotu. Odezvu nebo hodnotu ignorujte.

Vytváření náhodných dat

Pomocí funkce rnorm () můžeme vytvořit náhodná vzorová data.

Nyní vytvoříme rnorm () k vytvoření náhodných ukázkových dat o 10 hodnotách.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2))

Výše uvedený příkaz vygeneruje 10 náhodných hodnot se střední hodnotou 3 a směrodatnou odchylkou = 2 a uloží je do datového rámce.

Při tisku dat získáme níže uvedený výstup.

Stat1

1 2, 662022

2 2, 184315

3 5, 974787

4 4, 536203

5 4, 808296

6 3, 817232

7 1, 135339

8 1, 583991

9 3, 308994

10 4, 6649170

Můžeme převést stejný vstup (data) na funkci boxplot, která generuje graf.

K datům přidáváme další hodnoty a sledujeme, jak se graf mění.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data)

Přidání více náhodných hodnot a jejich použití k reprezentaci grafu.

Níže jsou uvedeny hodnoty, které jsou uloženy v datové proměnné.

STAT 1STAT 2STAT 3STAT 4
3, 7954654.218645, 8275852, 157315
0, 9117264, 091196.2608112, 26594
3, 7078283, 359875, 88893, 714557
0, 1157724, 51235, 9348582, 40645
0, 6975562, 159456, 811472, 571304
5.1292313, 26986.2500683, 025175
5, 4041014, 389395, 66700612, 9901
1, 4550663.130595, 6923232, 69693
0, 8686365.423115, 4154352, 674768
2, 141133, 907286, 2060592, 806656

Níže je boxplotní graf se 40 hodnotami. Máme 1-7 čísel na ose y a stat1 na stat4 na ose x.

Zarovnání textu na ose x můžeme změnit pomocí jiného parametru zvaného las = 2.

Analýza grafu štítků R Boxplot

Zadali jsme vstup do datového rámce a vidíme výše uvedený graf.

Abychom porozuměli údajům, podívejme se na hodnoty stat1.

Graf představuje všech 5 hodnot. Počínaje minimální hodnotou zdola a poté třetím kvartilem, střední hodnotou, nejprve kvartilem a minimální hodnotou.

Výše uvedený graf má vodorovné zarovnání textu na ose x.

Změna barvy

Ve všech výše uvedených příkladech jsme viděli spiknutí černobíle. Podívejme se, jak změnit barvu v grafu.

Do funkce boxplot () můžeme přidat parametr col = color.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col="red")
data

Níže vidíme výstup grafu červeně.

Pomocí stejného výše uvedeného kódu můžeme do grafu přidat více barev.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col=c("red", "blue", "green", "yellow")
data

Přidání štítků

Můžeme přidat popisky pomocí parametrů xlab, ylab ve funkci boxplot ().

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", col=c("red", "blue", "green", "yellow"))
data

Použitím hlavního parametru můžeme do grafu přidat nadpis.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", main="Random relation", notch=TRUE, col=c("red", "blue", "green", "yellow"))
data

Parametr Notch se používá k tomu, aby byl graf srozumitelnější. Protože se ve výše uvedeném grafu nesouhlasí medici stat1 až stat4.

Výhody a nevýhody Box Plot

Výhody

  • Shrnutí velkého množství dat je snadné pomocí štítků boxplot.
  • Zobrazuje rozsah a distribuci dat na ose.
  • Označuje symetrii a skewness
  • Pomáhá identifikovat odlehlé hodnoty v datech.

Nevýhody

  • Lze použít pouze pro číselné údaje.
  • Pokud jsou v datech nesrovnalosti, nemůže být vykreslení pole přesné.

Poznámky:

  1. Grafy musí být správně označeny.
  2. Měřítka jsou důležitá; změna měřítka může dát datům jiný pohled.
  3. Porovnání dat se správnými měřítky by mělo být konzistentní

Závěr - R Boxplot štítky

Seskupování dat je usnadněno pomocí boxplots. Box plot podporuje více proměnných a různé optimalizace. Můžeme také měnit měřítka podle dat.

Boxplots lze použít k porovnání různých datových proměnných nebo sad.

Použitelnost boxplotu je snadná a pohodlná. Potřebujeme konzistentní data a správné štítky. Boxploty jsou často používány ve vědě o datech a dokonce i týmy prodeje k seskupování a porovnávání dat. Boxplot poskytuje informace o potenciálu dat a optimalizaci, které lze udělat pro zvýšení prodeje.

Boxplot je zajímavý způsob, jak otestovat data, která poskytuje přehled o dopadu a potenciálu dat.

Doporučené články

Toto je průvodce štítky R Boxplot. Zde diskutujeme funkci Parameters under boxplot (), jak vytvářet náhodná data, měnit barvu a grafovou analýzu spolu s výhodami a nevýhodami. Další informace naleznete také v následujícím článku -

  1. Typy vizualizace dat
  2. Implementace datového skladu
  3. Techniky vědy o údajích
  4. Co je Data Cube?

Kategorie: