Co je to regresní analýza? - Typy a přínosy regresní analýzy

Obsah:

Anonim

Úvod do regresní analýzy

Regresní analýza je prediktivní modelovací algoritmus, který předpovídá výsledek proměnné a identifikuje proměnné (nezávislé proměnné), které přispívají k výsledné proměnné (cílové nebo závislé proměnné) nebo jsou na ní závislé. Zjednodušeně řečeno, je to technika, jak najít vztah mezi nezávislými a závislými proměnnými k vytvoření výsledku. Je snadné používat a interpretovat výsledek. Existuje mnoho typů regresních technik, které jsou široce používány v různých sektorech. Mezi příklady regrese patří předpovědi platu zaměstnance nebo příjmu společnosti za rok.

Jak fungovala regresní analýza?

Existuje mnoho typů regresních technik, které se používají s ohledem na různé faktory a výsledky.

  • Lineární regrese
  • Logistická regrese
  • Laso / Ridge regrese
  • Polynomiální regrese

Níže uvádíme některé důležité statistické regresní testy, které se používají v různých sektorech:

1. Lineární regrese

To se používá, když je výsledná proměnná lineárně závislá na nezávislých proměnných. Obvykle se používá, když nemáme obrovský soubor dat. Je také citlivý na odlehlé hodnoty, takže pokud sada dat obsahuje odlehlé hodnoty, než je lepší, je před použitím lineární regrese ošetřit. Existují jednoduché a variabilní regresní techniky. Jednoduchá lineární regrese je analýza, kdy je výsledná proměnná lineárně závislá na jediné nezávislé proměnné. Jednoduchá lineární regrese následuje rovnici přímky, která je uvedena níže:

Y=mx+c

Kde,

Y = cílová, závislá nebo kritéria proměnná

x = Nezávislá nebo predikční proměnná

m = sklon nebo koeficient regrese

c = konstanta

Multi-variabilní lineární regrese definuje vztah mezi výslednou proměnnou a více než jednou nezávislou proměnnou. Navazuje na níže uvedenou rovnici přímky, kde závislé proměnné jsou lineární kombinací všech nezávislých proměnných:

Y= m1x1+m2x2+m3x3+…mnan+c

Kde,

Y = cílová, závislá nebo kritéria proměnná

x1, x2, x3 … xn = nezávislé nebo predikční proměnné

m1, m2, m3… mn = sklon nebo regresní koeficienty příslušných proměnných

c = konstanta

Lineární regrese se řídí principem metody nejmenších čtverců. Tato metoda uvádí, že nejvhodnější řádek je vybrán minimalizováním součtu čtvercových chyb. Nejvhodnější řádek je vybrán tam, kde je součet čtvercové chyby mezi pozorovanými daty a řádkem minimální.

Před použitím lineární regrese na datový soubor by se mělo postarat o několik předpokladů.

  • Mezi nezávislými a závislými proměnnými by měl existovat lineární vztah.
  • Mezi nezávislými proměnnými by neměla být žádná nebo jen malá multicollinearita. Multicollinearity je definován jako jev, kde existuje vysoká korelace mezi nezávislými proměnnými. S multicollinearitou můžeme zacházet vynecháním jedné proměnné, která je korelovaná, nebo zachází s dvěma proměnnými jako s jednou proměnnou.
  • Homoscedasticita: Je definována jako stav, ve kterém by měly být chybové termíny náhodně rozloženy po linii v regresní analýze. Přes linii by neměl být žádný vzor, ​​pokud existuje nějaký identifikovaný vzor, ​​než se říká, že data jsou heteroscedastická.
  • Všechny proměnné by měly být normálně distribuovány, což vidíme vykreslením QQ grafu. Pokud data nejsou normálně distribuována, můžeme k jejich ošetřování použít jakékoli metody nelineární transformace.

Proto je vždy vhodné otestovat předpoklady a zároveň použít lineární regresi pro získání dobré přesnosti a správného výsledku.

2. Logistická regrese

Tato regresní technika se používá v případě, že cílová nebo výsledná proměnná je kategorické nebo binární povahy. Hlavní rozdíl mezi lineární a logistickou regresí spočívá v cílové proměnné, v lineární regresi by měla být spojitá, zatímco v logistice by měla být kategorická. Výsledná proměnná by měla mít pouze dvě třídy, ne víc než to. Mezi příklady patří spamové filtry v e-mailech (spam nebo ne), detekce podvodů (podvody / podvody) atd. Funguje na principu pravděpodobnosti. Nastavením prahové hodnoty ji lze rozdělit do dvou kategorií.

Příklad: Pokud existují dvě kategorie A, B a nastavíme prahovou hodnotu na 0, 5, pak pravděpodobnost nad 0, 5 bude považována za jednu kategorii a pod 0, 5 bude další kategorie. Logistická regrese sleduje křivku ve tvaru písmene S. Před vytvořením logistického regresního modelu musíme datový soubor rozdělit na školení a testování. Protože cílová proměnná je kategorická nebo binární, musíme se ujistit, že v tréninkové sadě je správná rovnováha třídy. Pokud existuje nevyváženost třídy, lze ji léčit různými způsoby, jak je uvedeno níže:

  • Vzorkování nahoru: U této techniky je vzorkována třída, která má méně řádků, aby odpovídala počtu řádků většinové třídy.
  • Vzorkování dolů: V této technice je třída, která má více řádků, vzorkována dolů, aby odpovídala počtu řádků třídy menšin.

Před použitím modelu logistické regrese na soubory dat je důležité porozumět některým důležitým bodům:

  • Cílová proměnná by měla být binární povahy. Pokud jsou v cílové proměnné více než 2 třídy, než je známo jako Multinomial Logistic Regression .
  • Mezi nezávislými proměnnými by neměla být žádná nebo jen malá multicollinearita.
  • K tomu je potřeba velká velikost vzorku.
  • Měl by existovat lineární vztah mezi nezávislými proměnnými a žurnálem pravděpodobnosti.

Výhody regrese

Regresní analýza má mnoho výhod. Místo toho, abychom uvažovali o našem střevním pocitu a předpovídali výsledek, můžeme použít regresní analýzu a ukázat platné body pro možné výsledky.

Některé z nich jsou uvedeny níže:

  • Předpovídat tržby a příjmy v jakémkoli sektoru na kratší nebo delší období.
  • Předpovídat míru odlivu zákazníků v jakémkoli odvětví a najít vhodná opatření k jejich snížení.
  • Pochopit a předvídat úrovně zásob skladu.
  • Zjistit, zda bude uvedení nového produktu na trh úspěšné nebo ne.
  • Chcete-li předpovídat, zda některý zákazník bude výchozí úvěr, nebo ne.
  • Předpovídat, zda si nějaký produkt koupí nebo ne.
  • Detekce podvodů nebo spamu

Závěr

Po aplikaci modelu jsou zvažovány různé metriky hodnocení. Přestože existují předpoklady, které je třeba před použitím modelu testovat, můžeme proměnné vždy upravit pomocí různých matematických metod a zvýšit výkon modelu.

Doporučené články

Toto je průvodce regresní analýzou. Zde diskutujeme Úvod do regresní analýzy, jak fungovala regresní analýza a výhody regrese. Další informace naleznete také v dalších navrhovaných článcích -

  1. Lineární regresní analýza
  2. Nástroje pro analýzu dat
  3. Nástroje pro regresní testování
  4. Analýza velkých dat
  5. Regrese vs. klasifikace Hlavní klíčové rozdíly