Jednosměrná analýza variací

Analýza rozptylu psaná krátce jako ANOVA je postup, pomocí kterého můžeme porovnat prostředky napříč třemi nebo více populacemi. Statisticky sestavujeme dvě hypotézy, nulovou hypotézu: „Všechny prostředky populace jsou si rovny“ a alternativní hypotézy: „Ne všechny prostředky populace jsou si rovny“. To nám umožňuje testovat rovnost více prostředků v jednom testu namísto porovnání dvou prostředků najednou, což je nemožné, pokud existuje několik skupin. V tomto tématu se budeme učit o One Way ANOVA v R.

Jednosměrná analýza odchylky nám pomáhá analyzovat pouze jeden faktor nebo proměnnou. Např. Existuje pět regionů a chceme zkontrolovat, zda jsou denní průměrné srážky pro všech pět regionů stejné nebo zda se liší. V tomto případě existuje pouze jeden faktor, kterým je region, protože musíme zkontrolovat, zda regionální faktory ovlivňují příjem srážkových srážek a způsob.

Předpoklady analýzy odchylky

Následující předpoklady musí být splněny pro použití jednosměrné ANOVA:

  • Populace, ze kterých jsou vzorky odebírány, jsou obvykle distribuovány.
  • Populace, ze kterých jsou vzorky odebírány, mají stejnou odchylku nebo směrodatnou odchylku.
  • Vzorky odebrané z různých populací jsou náhodné a nezávislé.

Jak funguje jednosměrná ANOVA v R?

Pro naši demonstraci používáme data, která obsahují dvě proměnné viz. Značka a prodej. Existují čtyři značky - ATB, JKV, MKL a PRQ. Měsíční prodej těchto značek je uveden. Musíme zkontrolovat, zda průměrný prodej napříč čtyřmi značkami je stejný nebo zda se liší od sebe navzájem. K ověření toho použijeme jednosměrnou ANOVA. Postup implementace ANOVA je následující:

  1. Nejprve importujte data do R. Data jsou přítomna ve formátu CSV. Takže pro jeho import použijeme funkci read.csv ().

  1. Zobrazit několik prvních záznamů dat. Je důležité zkontrolovat, zda byla data správně importována do R. Podobně použijeme funkci data (), abychom získali základní informace o datech.

  1. Pokaždé, když použijeme proměnné přítomné v datovém souboru, musíme explicitně uvést název datového souboru, například brand_sales_data $ Brand nebo brand_sales_data $ Sales. Abychom to překonali, použijeme funkci připojení. Funkce musí být použita níže.

  1. Pojďme agregovat prodej podle značky pomocí střední nebo standardní odchylky. Agregace nám pomáhá získat základní představu o datech.

Výše uvedený výsledek ukazuje, že prostředky pro čtyři různé skupiny nejsou stejné. JKV má nejvyšší průměrný prodej.

Jak je vidět výše, standardní odchylky napříč čtyřmi skupinami nevykazují žádný významný rozdíl a je nejvyšší pro značku MKL.

  1. Nyní použijeme ANOVA k ověření, zda jsou prostředky ve všech třech populacích stejné nebo existují nějaké rozdíly.

Z výše uvedených výsledků můžeme vidět, že ANOVA test pro značku je významný z důvodu p <0, 0001. Můžeme interpretovat, že všechny značky nemají na trhu stejné úrovně preferencí, které ovlivňují prodej těchto značek na trhu. Může to být způsobeno mnoha faktory a zálibou lidí u určité značky.

  1. Výše uvedený výsledek lze vizualizovat a usnadňuje interpretaci. K tomu použijeme funkci plotmeans () v knihovně gplots (). Funguje to takto:

Jak vidíme výše, funkce plotmeans () v balíčku gplots nám umožňuje vizuálně porovnat prostředky různých skupin. Vidíme, že prostředky nejsou u všech čtyř značek stejné. Prostředky pro značky MKL a PRQ se však blíží.

  1. Výše uvedená analýza nám pomáhá ověřit, zda značky mají stejné prostředky nebo ne, nicméně je obtížné srovnat párové srovnání. Můžeme provést párová srovnání pro různé značky pomocí funkce TukeyHSD (), která usnadňuje kontrolu, zda se značka výrazně liší od ostatních značek.

Srovnání párů jako výše. Rozdíl mezi libovolnými dvěma skupinami je významný, pokud p <0, 001. Jak vidíme výše, hodnota p pro pár PRQ-MKL je mnohem vyšší, což naznačuje, že obě značky se od sebe významně neliší.

Pro vizualizaci párových srovnání vyneseme výše uvedené výsledky níže:

První funkce par otáčí štítky os, takže jsou vodorovné, a druhý příkaz par upravuje okraje tak, aby se štítky správně hodily, jinak vyjdou z obrazovky.

Výše uvedený graf nabízí dobrý přehled, ale výsledky můžeme vykreslit ve formě boxplotu, abychom získali lepší přehled pro jasnější interpretaci, jak je ukázáno níže.

Funkce glht () používaná výše přichází s komplexní sadou metod pro porovnávání více prostředků. Všimněte si, že volba úrovně ve funkci cld () se týká úrovně významnosti, např. 0, 05 nebo 95% spolehlivosti)

Pomocí výše uvedeného grafu je snadné srovnávat prostředky napříč skupinami a také usnadňuje systematickou interpretaci. Na každé ploše jsou písmena pro každou značku. Pokud dvě značky mají stejné písmeno, nemají významně odlišné prostředky jako značky MKL a PRQ v tomto případě, které mají stejné písmeno b.

  1. Doposud jsme implementovali ANOVA a vizualizovali výsledky pomocí grafů. Stejně důležité je však tyto předpoklady otestovat. Nejprve ověříme předpoklad normality.

Balíček do auta v R poskytuje funkci qqPlot (). Výše uvedený graf ukazuje, že data spadají do 95% spolehlivé obálky. To naznačuje, že předpoklad normality byl téměř splněn.

Dále ověříme, zda jsou rozdíly mezi značkami stejné. K tomu použijeme Bartlettův test

Hodnota p ukazuje, že rozdíly ve skupině se významně neliší

V neposlední řadě zkontrolujeme, zda existují nějaké odlehlé hodnoty, které ovlivňují výsledky ANOVA.

Z výše uvedeného výsledku můžeme vidět, že v údajích neexistuje žádná indikace odlehlých hodnot (NA nastane, když p> 1)

S ohledem na výsledky QQ Plot, Bartlettův test a Outlierův test můžeme říci, že data splňují všechny předpoklady ANOVA a získané výsledky jsou platné.

Závěr - jednosměrná ANOVA v R

ANOVA je velmi užitečná statistická technika, kterou lze použít k porovnání prostředků napříč více populacemi. R nabízí komplexní škálu balíčků pro implementaci ANOVA, odvození výsledků a ověření předpokladů. V R mohou být statistické výsledky interpretovány ve vizuálních formách, které nabízejí hlubší poznatky.

Doporučené články

Toto je průvodce k One Way ANOVA v R. Zde diskutujeme o tom, jak One-Way ANOVA funguje a Předpoklady analýzy variací. Další informace naleznete také v následujících článcích -

  1. R Programovací jazyk
  2. Regrese vs. ANOVA
  3. Jak interpretovat výsledky pomocí testu ANOVA
  4. GLM v R

Kategorie: