Outliersův vzorec (obsah)

  • Outliersův vzorec
  • Příklady vzorců outliers (se šablonou Excel)

Outliersův vzorec

Ve statistikách jsou Outliers dva extrémně vzdálené neobvyklé body v daných sadách dat. Extrémně vysoká hodnota a extrémně nízké hodnoty jsou odlehlé hodnoty datové sady. To je velmi užitečné při hledání jakékoli chyby nebo chyby, ke které došlo. Jednoduše, jak název napovídá, Outliers jsou hodnoty, které ležely mimo zbytek hodnot v datové sadě. Příklad: zvažte studenty inženýrství a představte si, že ve své třídě měli trpaslíky. Takže trpaslíci jsou lidé, kteří jsou ve srovnání s jinými lidmi s normální výškou extrémně nízká. Tohle je tedy odlehčená hodnota v této třídě. Odlehlé hodnoty lze vypočítat pomocí Tukeyovy metody.

Vzorec pro Outliers -

Lower Outlier = Q1 – (1.5 * IQR)
Higher Outlier= Q3 + (1.5 * IQR)

Příklady vzorců outliers (se šablonou Excel)

Vezměme si příklad, abychom lépe pochopili výpočet Outliersova vzorce.

Tuto šablonu Outliers si můžete stáhnout zde - Outliers Template

Outliersův vzorec - Příklad č. 1

Zvažte následující sadu dat a vypočtěte odlehlé hodnoty pro sadu dat.

Sada dat = 5, 2, 7, 98, 309, 45, 34, 6, 56, 89, 23

Vzestupné pořadí datových sad:

Medián sestavy dat vzestupné objednávky se počítá jako:

V tomto datovém souboru je celkový počet dat 11. Takže n = 11. Medián = 11 + 1/2 = 12/2 = 6. Proto je hodnota, která je na 6. pozici v tomto datovém souboru, střední.

Střední hodnota = 34.

Rozdělte sadu dat na 2 poloviny pomocí mediánu.

Střední hodnota datových souborů dolní poloviny a horní poloviny se počítá jako:

  • Pokud v dolní polovině 2, 5, 6, 7, 23 najdeme střední hodnotu, jak jsme našli v kroku 2, střední hodnota by byla 6. Takže Q1 = 6.
  • Pokud v horní polovině 45, 56, 89, 98 309 najdeme střední hodnotu, jak jsme našli v kroku 2, střední hodnota bude 89. Takže Q3 = 89.

IQR se vypočítá pomocí vzorce uvedeného níže

IQR = Q3 - Q1

  • IQR = 89 -6
  • IQR = 83

Dolní outlier se vypočítá pomocí vzorce uvedeného níže

Dolní outlier = Q1 - (1, 5 * IQR)

  • Dolní odlehlé = 6 - (1, 5 * 83)
  • Dolní odlehlé = -118, 5

Vyšší odlehlé hodnoty se počítají pomocí vzorce uvedeného níže

Vyšší odlehlé hodnoty = Q3 + (1, 5 * IQR)

  • Vyšší odlehlé číslo = 89 + (1, 5 * 83)
  • Vyšší odlehlé číslo = 213, 5

Nyní tyto hodnoty načtěte do datové sady -118, 5, 2, 5, 6, 7, 23, 34, 45, 56, 89, 98, 213, 5, 309. Hodnoty, které klesají pod dolní stranu a nad ni na vyšší straně jsou odlehlou hodnotou. Pro tuto datovou sadu je 309 odlehlou hodnotou.

Outliersův vzorec - Příklad č. 2

Zvažte následující sadu dat a vypočtěte odlehlé hodnoty pro sadu dat.

Sada dat = 45, 21, 34, 90, 109.

Vzestupné pořadí datových sad:

Medián sestavy dat vzestupné objednávky se počítá jako:

V tomto datovém souboru je celkový počet dat 5. Takže n = 5. Medián = 5 + 1/2 = 6/2 = 3. Od této doby je hodnota, která je na 3. pozici v tomto datovém souboru, střední.

Střední hodnota = 45.

Rozdělte sadu dat na 2 poloviny pomocí mediánu.

Střední hodnota datových souborů dolní poloviny a horní poloviny se počítá jako:

  • Q1 = 27, 5
  • Q3 = 89

IQR se vypočítá pomocí vzorce uvedeného níže

IQR = Q3 - Q1

  • IQR = 99, 5 - 27, 5
  • IQR = 72

Dolní outlier se vypočítá pomocí vzorce uvedeného níže

Dolní outlier = Q1 - (1, 5 * IQR)

  • Dolní odlehlé = 27, 5 - (1, 5 * 72)
  • Dolní odlehlé = -80, 5

Vyšší odlehlé hodnoty se počítají pomocí vzorce uvedeného níže

Vyšší odlehlé hodnoty = Q3 + (1, 5 * IQR)

  • Vyšší odlehlé číslo = 99, 5 + (1, 5 * 72)
  • Vyšší odlehlé číslo = 207, 5

Vysvětlení

Krok 1: Seřaďte všechny hodnoty v dané datové sadě ve vzestupném pořadí.

Krok 2: Najděte střední hodnotu pro data, která jsou tříděna. Medián lze najít pomocí následujícího vzorce. Následující výpočet vám jednoduše poskytne pozici střední hodnoty, která se nachází v nastaveném datu.

Medián = (n + 1) / 2

Kde n je celkový počet údajů dostupných v sadě údajů.

Krok 3: Najděte dolní kvartilovou hodnotu Q1 ze sady dat. Chcete-li to najít, pomocí střední hodnoty rozdělte sadu dat na dvě poloviny. V dolní polovině sady hodnot najděte střední hodnotu pro dolní sadu, což je hodnota Q1.

Krok 4: Najděte horní kvartilní hodnotu Q3 ze sady dat. Je to přesně jako výše uvedený krok. Místo dolní poloviny musíme postupovat stejným postupem jako horní polovina hodnot.

Krok 5: Najděte hodnotu IQR mezikvartilního rozsahu. Nalezení hodnoty odpočtu Q1 z Q3.

IQR = Q3-Q1

Krok 6: Najděte hodnotu Inner Extreme. Konec, který spadá mimo spodní stranu, kterou lze také nazvat jako menší odlehlé místo. Vynásobením hodnoty IQR 1, 5 a odečtením této hodnoty z Q1 získáte extrémní vnitřní dolní.

Dolní outlier = Q1 - (1, 5 * IQR)

Krok 7: Najděte hodnotu Outer Extreme. Konec, který spadá mimo vyšší stranu, kterou lze také nazvat velkým odlehčením. Vynásobením hodnoty IQR 1, 5 a sečtením této hodnoty s Q3 získáte Extrém Vyššího.

Vyšší odlehlé hodnoty = Q3 + (1, 5 * IQR)

Krok 8: Hodnoty, které spadají mimo tyto vnitřní a vnější extrémy, jsou vnějšími hodnotami pro daný soubor dat.

Relevance a použití odlehlých vzorců

Odlehlé hodnoty jsou velmi důležité v jakémkoli problému s analytikou dat. Outlier ukazuje nekonzistenci v jakékoli datové sadě, protože je definována jako neobvyklé vzdálené hodnoty v datové sadě od jedné k druhé. To je velmi užitečné při hledání jakýchkoli nedostatků, ke kterým došlo v datové sadě. Protože když vložíte chybu do datové sady, ovlivní to střední hodnotu a střední hodnota může tedy ve výsledku způsobit velké odchylky, pokud jsou v datové sadě Outliers. Proto je nezbytné zjistit ze souboru údajů odlehlé hodnoty, aby se předešlo vážným problémům ve statistické analýze.

Doporučené články

Toto byl průvodce vzorcem Outliers. Zde diskutujeme o tom, jak vypočítat odlehlé hodnoty, spolu s praktickými příklady a šablonou Excel ke stažení. Další informace naleznete také v následujících článcích -

  1. Průvodce středním vzorcem
  2. Příklady platového vzorce
  3. Kalkulačka pro vzorec DPMO
  4. Jak vypočítat distribuci T?
  5. Kvartilní odchylka vzorce Příklady

Kategorie: