Úvod do značení Boxplot v R
Štítky Boxplot pomáhají při vizualizaci distribuovaných dat v R. Graf představuje průměr, střední hodnotu a rozptyl. Hodnoty jsou uvedeny jako vstup do funkce boxplot (). Funkce Boxplot () vytvoří boxplot pomocí zadaných vstupních dat. Boxplot lze vytvořit pro jednotlivé proměnné nebo skupinu.
Vykreslení grafu boxplot
- Potřebujeme pět hodnotných vstupů, jako je průměr, rozptyl, medián, první a třetí kvartil.
- Identifikace, zda jsou v datech nějaké odlehlé hodnoty.
- Navrhněte model pro vykreslení dat.
Parametry ve funkci boxplot ()
- vzorec: Tento parametr umožňuje rozlit číselné hodnoty do několika skupin.
- Data :: Vstupní data, která obsahují buď datový rámec, nebo seznam.
- Podmnožina: Volitelný vektorový parametr k určení podmnožiny pro vykreslování.
- xlab: anotace osy x
- ylab: an -osa y.
- range: range určuje rozšíření grafu.
- akce: zadejte, co se stane, když bude mít nulovou hodnotu. Odezvu nebo hodnotu ignorujte.
Vytváření náhodných dat
Pomocí funkce rnorm () můžeme vytvořit náhodná vzorová data.
Nyní vytvoříme rnorm () k vytvoření náhodných ukázkových dat o 10 hodnotách.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2))
Výše uvedený příkaz vygeneruje 10 náhodných hodnot se střední hodnotou 3 a směrodatnou odchylkou = 2 a uloží je do datového rámce.
Při tisku dat získáme níže uvedený výstup.
Stat1
1 2, 662022
2 2, 184315
3 5, 974787
4 4, 536203
5 4, 808296
6 3, 817232
7 1, 135339
8 1, 583991
9 3, 308994
10 4, 6649170
Můžeme převést stejný vstup (data) na funkci boxplot, která generuje graf.
K datům přidáváme další hodnoty a sledujeme, jak se graf mění.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data)
Přidání více náhodných hodnot a jejich použití k reprezentaci grafu.
Níže jsou uvedeny hodnoty, které jsou uloženy v datové proměnné.
STAT 1 | STAT 2 | STAT 3 | STAT 4 |
3, 795465 | 4.21864 | 5, 827585 | 2, 157315 |
0, 911726 | 4, 09119 | 6.260811 | 2, 26594 |
3, 707828 | 3, 35987 | 5, 8889 | 3, 714557 |
0, 115772 | 4, 5123 | 5, 934858 | 2, 40645 |
0, 697556 | 2, 15945 | 6, 81147 | 2, 571304 |
5.129231 | 3, 2698 | 6.250068 | 3, 025175 |
5, 404101 | 4, 38939 | 5, 6670061 | 2, 9901 |
1, 455066 | 3.13059 | 5, 692323 | 2, 69693 |
0, 868636 | 5.42311 | 5, 415435 | 2, 674768 |
2, 14113 | 3, 90728 | 6, 206059 | 2, 806656 |
Níže je boxplotní graf se 40 hodnotami. Máme 1-7 čísel na ose y a stat1 na stat4 na ose x.
Zarovnání textu na ose x můžeme změnit pomocí jiného parametru zvaného las = 2.
Analýza grafu štítků R Boxplot
Zadali jsme vstup do datového rámce a vidíme výše uvedený graf.
Abychom porozuměli údajům, podívejme se na hodnoty stat1.
Graf představuje všech 5 hodnot. Počínaje minimální hodnotou zdola a poté třetím kvartilem, střední hodnotou, nejprve kvartilem a minimální hodnotou.
Výše uvedený graf má vodorovné zarovnání textu na ose x.
Změna barvy
Ve všech výše uvedených příkladech jsme viděli spiknutí černobíle. Podívejme se, jak změnit barvu v grafu.
Do funkce boxplot () můžeme přidat parametr col = color.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col="red")
data
Níže vidíme výstup grafu červeně.
Pomocí stejného výše uvedeného kódu můžeme do grafu přidat více barev.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col=c("red", "blue", "green", "yellow")
data
Přidání štítků
Můžeme přidat popisky pomocí parametrů xlab, ylab ve funkci boxplot ().
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", col=c("red", "blue", "green", "yellow"))
data
Použitím hlavního parametru můžeme do grafu přidat nadpis.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", main="Random relation", notch=TRUE, col=c("red", "blue", "green", "yellow"))
data
Parametr Notch se používá k tomu, aby byl graf srozumitelnější. Protože se ve výše uvedeném grafu nesouhlasí medici stat1 až stat4.
Výhody a nevýhody Box Plot
Výhody
- Shrnutí velkého množství dat je snadné pomocí štítků boxplot.
- Zobrazuje rozsah a distribuci dat na ose.
- Označuje symetrii a skewness
- Pomáhá identifikovat odlehlé hodnoty v datech.
Nevýhody
- Lze použít pouze pro číselné údaje.
- Pokud jsou v datech nesrovnalosti, nemůže být vykreslení pole přesné.
Poznámky:
- Grafy musí být správně označeny.
- Měřítka jsou důležitá; změna měřítka může dát datům jiný pohled.
- Porovnání dat se správnými měřítky by mělo být konzistentní
Závěr - R Boxplot štítky
Seskupování dat je usnadněno pomocí boxplots. Box plot podporuje více proměnných a různé optimalizace. Můžeme také měnit měřítka podle dat.
Boxplots lze použít k porovnání různých datových proměnných nebo sad.
Použitelnost boxplotu je snadná a pohodlná. Potřebujeme konzistentní data a správné štítky. Boxploty jsou často používány ve vědě o datech a dokonce i týmy prodeje k seskupování a porovnávání dat. Boxplot poskytuje informace o potenciálu dat a optimalizaci, které lze udělat pro zvýšení prodeje.
Boxplot je zajímavý způsob, jak otestovat data, která poskytuje přehled o dopadu a potenciálu dat.
Doporučené články
Toto je průvodce štítky R Boxplot. Zde diskutujeme funkci Parameters under boxplot (), jak vytvářet náhodná data, měnit barvu a grafovou analýzu spolu s výhodami a nevýhodami. Další informace naleznete také v následujícím článku -
- Typy vizualizace dat
- Implementace datového skladu
- Techniky vědy o údajích
- Co je Data Cube?