Úvod do histogramu v R

V tomto článku začneme základním histogramem v implementaci R a přizpůsobeních. Histogram hraje důležitou roli v analýze dat pro vizualizaci dat. Programování R je speciální prostředí pro statistické výpočty a základy pro vědu o datech. V programování R jsou datové sady a funkce seskupeny do podoby balíčků. Většina programů vizuální analýzy využívá histogramy a jako výchozí nastavuje šířku zásobníku. Umožňují rychle pochopit poznatky o datech, které jsou primární úlohou ve vědě o datech. Zde vytvoříme histogram pomocí R příkazů.

Co je histogram?

Histogram je obrazové znázornění distribuce datových sad, pomocí kterých bychom mohli snadno analyzovat, který faktor má větší množství dat a nejméně dat. Jinými slovy, histogram umožňuje provádění kumulativních grafů frekvence na ose x a ose y. Histogramy vlastně berou jak seskupená, tak neseskupená data. Pro seskupený datový histogram je konstruován s ohledem na hranice třídy, zatímco neseskupená data je nutné vytvořit seskupené rozdělení frekvence. Pomáhají efektivně analyzovat rozsah a umístění dat. Během distribuce dat se používá nějaká běžná struktura histogramů jako normální, zkosená, útesová.

Na rozdíl od sloupce nemá histogram grafu mezery mezi pruhy a zde jsou sloupce pojmenovány jako přihrádky, se kterými jsou data reprezentována ve stejných intervalech. Histogram Vezme spojitou proměnnou a rozdělí se do intervalů, je nutné zvolit správnou šířku zásobníku. Hlavní rozdíl mezi sloupcovým grafem a histogramem spočívá v tom, že první používá soubory nominálních dat k vykreslení, zatímco histogram vykresluje spojité soubory dat. R používá k vytvoření histogramů funkci hist (). Tato funkce hist () používá vektor hodnot k vykreslení histogramu. Histogram zahrnuje rozsah spojitých hodnot na ose x, osa y vykresluje časté hodnoty dat na ose x s pruhy variací výšek.

Syntax:

Syntaxe pro vytváření histogramu je

hist (v, main, xlab, xlim, ylim, breaks, col, border)
where v – vector with numeric values
main – denotes title of the chart
col – sets color
border -sets border color to the bar
xlab - description of x-axis
xlim - denotes to specify range of values on x-axis
ylim – specifies range values on y-axis
break – specifies the width of each bar.

Vytvoření histogramu v R

Pro účely analýzy vyžaduje histogram účelu některé vestavěné datové soubory k importu do R. R a jeho knihovny mají celou řadu grafických balíčků a funkcí. Zde používáme soubor dat švýcarských a leteckých cestujících. Pro výpočet histogramu pro danou datovou hodnotu se používá funkce hist () spolu se znaménkem $ k výběru určitého sloupce dat z datové sady k vytvoření histogramu.

Následující příklad vypočítá histogram hodnoty dat ve sloupci Zkoumání datové sady s názvem Swiss.

Příklad 1: Vytvořme jednoduchý histogram

Kód:

hist (swiss $Examination)

Výstup:

Hist je vytvořen pro datovou množinu švýcarskou s vyšetřením sloupců. to jednoduše vykreslí bin s frekvencí a osou x.

Příklad 2: Histogram s více argumenty

Abychom lépe porozuměli histogramům, musíme do funkce hist přidat další argumenty, abychom optimalizovali vizualizaci grafu. Změna označení xay na rozsah hodnot argumenty xlim a ylim jsou přidány do funkce.

Příklad:

hist (Air Passengers, xlim=c (150, 600), ylim=c (0, 35))
In the above example x limit varies from 150 to 600 and Y – 0 to 35.
// Adding breaks
hist (AirPassengers,
main="Histogram with more Arg",
xlab="Name List",
border="Green",
col="Orange",
xlim=c (100, 600),
ylim=c(0, 40),
breaks=5)

Výstup:

Výše uvedený kód vykresluje histogram pro hodnoty z datové sady Leteckí cestující, dává titul jako „Histogram pro více arg“, štítek osy x jako „Seznam jmen“, se zeleným rámečkem a žlutou barvou do sloupců, omezením hodnota 100 až 600, hodnoty vytištěné na ose y o 2 a nastavení šířky zásobníku na 5.

Přidání dvou různých barev na panel

hist (swiss$Examination, col=c ("violet”, "Chocolate2"), xlab="Examination”, las =1, main=" color histogram")

Výstup:

Přidání dalších sloupců do histogramu

hist (swiss$Education, breaks=40, col="violet", xlab="Education", main=" Extra bar histogram")

Výstup:

Příklad 3: Histogram v R vrátí hodnotu

Air <- AirPassengers
hist (Air)
h <- hist (Air)
h
$breaks

Výstup:

Příklad 4: Použití argumentu Break ke změně šířky zásobníku

Chcete-li mezi šířkou získat více bodů přerušení, je výhodné použít hodnotu ve funkci c ().

hist (AirPassengers, breaks=c (100, seq (200, 700, 150)))

Výstup:

Výše uvedený graf bere šířku pruhu přes hodnoty sekvence.

Příklad 5: Implementace normální distribuční křivky v histogramu

K nakreslení grafu použijeme datový soubor „swiss“. Zde se funkční křivka () používá k zobrazení distribuční linky.

Kód:

curve (dnorm(x, mean=mean(swiss$Education), sd=sd(swiss$Education)), add=TRUE, col="red")

Výstup:

Příklad 6: Vykreslení rozdělení pravděpodobnosti

hist (AirPassengers,
main="Histogram ",
xlab="Passengers",
border="Yellow",
col="pink",
xlim=c(100, 600),
las=2,
breaks=6,
prob = TRUE)

Vytváření grafů hustoty v histogramu v R

Distribuce proměnné je vytvořena pomocí hustoty funkcí (). Níže je uveden příklad s datovou sadou mtcars. Grafy hustoty pomáhají při distribuci tvaru.

density () // this function returns the density of the data
library(ggplot2)
d <- density (mtcars $qsec)
plot (d, main=" Density of Miles Per second")
polygon (d, col="orange",>

Výstup:

Using Line () function
hist (swiss$Examination, freq = FALSE, col=c ("violet”, "Chocolate2"),
xlab="Examination”, las =1, main=" Line Histogram")
lines(density(swiss$Examination), lwd = 4, col = "red")

Následující histogram v R zobrazuje výšku jako vyšetření na ose x a hustota je vynesena na ose y.

Výstup:

Závěr

To je všechno o histogramu a přesně histogram je nejjednodušší způsob, jak porozumět datům. Jak jsme viděli s histogramem, mohli jsme nakreslit jednotlivé, více grafů, pomocí šířky zásobníku, korekce osy, změny barev atd. Histogram pomáhá vizualizovat různé tvary dat. Nakonec jsme viděli, jak histogram umožňuje analýzu datových sad a středních bodů se používá jako označení třídy. Histogram pomáhá v měnících se intervalech vytvářet vylepšený popis dat a pracuje, zejména s číselnými údaji. histogramy jsou výhodnější v analýze kvůli jejich výhodě zobrazování velké sady dat. Na základě výstupu jsme mohli vizuálně zkreslit data a snadno provést některé předpoklady.

Doporučené články

Toto byl průvodce histogramem v R. Zde jsme diskutovali koncept, syntaxi a jak vytvořit histogram v R s příklady. Další informace naleznete také v následujících článcích -

  1. Příklady histogramu
  2. Kariéra v programování R
  3. Ganttův diagram v Tableau
  4. Kariéra v počítačovém programování
  5. Jak vytvořit čárový graf v R?

Kategorie: