Úvod Logistická regrese v R

Logistická regrese v R také známá jako binární klasifikační problémy. Používají se k predikci výsledku jako (1 nebo 0 buď ano / ne) pro nezávislou proměnnou. Pro pochopení logistické regrese v R je důležité znát základní lineární regresi, pracovat s proměnnou průběžného výsledku. Konkrétněji můžeme říci, že se jedná o rozšíření lineární regrese. V tomto článku se budeme zabývat různými metodami používanými pro výpočet modelu a hodnocení. Logická regrese se používá pro řešení klasifikačních problémů v strojovém učení.

Jak funguje logistická regrese v R?

Logistická regrese je technika používaná v oblasti statistiky, která měří rozdíl mezi závislou a nezávislou proměnnou s průvodcem logistické funkce odhadováním různého výskytu pravděpodobností. Mohou být buď binomické (mají ano nebo žádný výsledek) nebo multinomiální (spravedlivé vs. špatné, velmi špatné). Hodnoty pravděpodobnosti leží mezi 0 a 1 a proměnná by měla být kladná (<1). Zaměřuje se na závislou proměnnou a má následující kroky:

  1. n - ne. opravených pokusů na odebraném souboru dat
  2. se zkouškou se dvěma výsledky
  3. výsledek pravděpodobnosti by měl být na sobě nezávislý
  4. Pravděpodobnost úspěchu a neúspěchů musí být v každém pokusu stejná.

V tomto uvažujeme příklad tím, že vezmeme balíček ISLR, který poskytuje různé datové sady pro školení. Pro přizpůsobení modelu se zde používá zobecněná funkce lineárního modelu (glm). Pro vytvoření logistické regresní funkce glm je upřednostňováno a získává podrobnosti o nich pomocí shrnutí pro analytickou úlohu.

Pracovní kroky:

Pracovní kroky logistické regrese sledují určité termíny jako

  • Modelování pravděpodobnosti nebo odhad pravděpodobnosti
  • předpověď
  • Inicializace prahové hodnoty (vysoká nebo nízká specificita)
  • Matice zmatení
  • Plocha vykreslování pod křivkou (AUC)

Příklady

Níže uvádíme několik příkladů logistické regrese v R:

Načítání dat:

Instalace balíčku ISLR.

vyžadovat (ISLR)

Načítání požadovaného balíčku: ISLR

Pro tento článek použijeme datový soubor 'Týdenní' v RStudio. Datový soubor zahrnuje souhrnné podrobnosti o týdenních zásobách od roku 1990 do roku 2010.

vyžadovat (ISLR)

jména (Úř. věst.)

Výstup:

(1) „Nákup“ „WeekofPurchase“ „StoreID“ „PriceCH“

(5) „PriceMM“ „DiscCH“ „DiscMM“ „SpecialCH“

(9) „SpecialMM“ „LoyalCH“ „SalePriceMM“ „SalePriceCH“

(13) „PriceDiff“ „Store7“ „PctDiscMM“ „PctDiscCH“

(17) ”ListPriceDiff” “SKLADOVÁNÍ”

str (Úř. věst.)

Zobrazuje 1070 pozorování 18 proměnných.

Náš dataset má 1070 pozorování a 18 různých proměnných. tady máme speciální MM a speciální CH má závislý výsledek. Vezměme atribut Speciální MM, abychom měli správné pozorování a správnost 84%.

tabulka (OJ $ SpecialMM)

0 1

897 173

Poté najděte pravděpodobnost

897/1070

(1) 0, 8383178

V dalším kroku pro lepší vzorek Rozdělení datového souboru na školení a testování datového souboru je goo

knihovna (caTools)

set.seed (88)

split = sample.split (OJ $ SpecialMM, SplitRatio = 0, 84)

Vzhledem k tomu, že qt má tréninkovou sadu a qs má vzorová data testovací sady.

qt = podmnožina (OJ, split == TRUE)

qs = podmnožina (OJ, split == FALSE)

nrow (qt)

(1) 898

nrow (qs)

(1) 172

Proto máme 898 tréninkových sad a 172 testovacích vzorků.

Další použití Summary () poskytuje podrobnosti o odchylkách a součinných tabulkách pro regresní analýzu.

QualityLog = glm (SpecialMM ~ SalePriceMM + WeekofPurchase, data = qt, family = binomial)

shrnutí (QualityLog)

Výstup:

Volání:

glm (formula = SpecialMM ~ SalePriceMM + WeekofPurchase, family = binomial,

data = qt)

Zbytky deviance:

Min 1Q Střední 3Q Max

-1, 2790 -0, 4182 -0, 3668 -0, 2640 2, 4284

Koeficienty:

Odhad Std. Chyba z hodnota Pr (> | z |)

(Intercept) 2.910774 1, 616328 1, 801 0, 07173.

SaleCenaMM -4, 538464 0, 405808 -11, 184 <2e-16 ***

WeekofPurchase 0, 01546 0, 005831 2, 666 0, 00767 **

-

Nulová odchylka: 794, 01 na 897 stupních svobody

Zbytková odchylka: 636, 13 na 895 stupních volnosti

AIC: 642, 13

Počet iterací pro hodnocení Fishera: 5

Z výše uvedené analýzy se uvádí, že tabulka koeficientů dává kladné hodnoty pro WeekofPurchase a mají alespoň dvě hvězdičky, což znamená, že jsou významnými kódy pro model.

Technika predikce:

Zde použijeme funkci predikce Train v tomto balíčku R a poskytneme pravděpodobnosti, že používáme argument s názvem type = response. Podívejme se na predikci aplikovanou na tréninkovou sadu (qt). R předpovídá výsledek ve formě P (y = 1 | X) s hraniční pravděpodobností 0, 5.

předpověďTrain = předpověď (QualityLog, type = ”response”)

Souhrn má za následek střední, střední a min, maximální hodnoty.

shrnutí (PredictionTrain) Provedení dává

Min. 1. Qu.Median Střední 3. Qu.Max.

0, 02192 0, 03342 0, 07799 0, 16147 0, 25395 0, 89038

tapply (předpověďTrain, qt $ SpecialMM)

Pro výpočet průměru skutečné pravděpodobnosti se používá funkce tapply ().

tapply (předpověďTrain, qt $ SpecialMM, střední hodnota)

0 1

0, 1224444 0, 36641334

Proto ve výše uvedeném výroku zjišťujeme, že možnost skutečné hodnoty SpecialMM znamená 0, 34 a pro skutečnou špatnou hodnotu 0, 12.

Výpočet prahové hodnoty:

pokud P je> T– predikce je špatná Speciální MM

jestliže P je

Klasifikační matice:

tabulka (qt $ SpecialMM, předpověďTrain> 0, 5)

FALSE PRAVDA

0 746 7

1 105 40

Vypočítat citlivost a specifičnost

40/145

(1) 0, 2758621

746/753

(1) 0, 9907039

Testování sady předpověď

předpověďTest = předpověď (QualityLog, type = “response”, newdata = qs)

tabulka (qs $ SpecialMM, předpověďTest> = 0, 3)

FALSE PRAVDA

0 130 14

1 10 18

tabulka (qs $ SpecialMM, předpověďTest> = 0, 5)

FALSE PRAVDA

0 140 4

1 18 10

Výpočet přesnosti

150/172

(1) 0, 872093

Existuje 172 případů, z nichž 144 je dobrých a 28 špatných.

Vykreslování křivky ROC:

Toto je poslední krok vynesením křivky ROC pro měření výkonu. Dobrá hodnota AUC by měla být blíže 1, nikoli 0, 5. Kontrola s pravděpodobnostmi 0, 5, 0, 7, 0, 2 předpovídá, jak se prahová hodnota zvyšuje a snižuje. To se provádí současným vynesením prahových hodnot do křivky ROC. Dobrou volbou je výběr s ohledem na vyšší citlivost.

Logistické regresní techniky

Podívejme se na implementaci logistiky pomocí R, protože to velmi usnadňuje montáž modelu. Existují dva typy technik:

  • Multinomiální logistická regrese
  • Řádná logická regrese

Bývalý pracuje s proměnnými odezvy, pokud mají více než nebo dvě třídy. později funguje, když je objednávka významná.

Závěr

Proto jsme se naučili základní logiku za regresí společně s implementací Logistické regrese na konkrétní datový soubor R. Binomická nebo binární regrese měří kategorické hodnoty binárních odpovědí a predikčních proměnných. Hrají zásadní roli v analytice, kde odborníci v oboru očekávají, že budou znát lineární a logistickou regresi. Mají své vlastní výzvy a v praktickém příkladu jsme udělali kroky k čištění dat, předběžnému zpracování. Dohromady jsme viděli, jak logická regrese řeší problém kategorického výsledku jednoduchým a snadným způsobem.

Doporučené články

Toto byl průvodce Logistickou regresí v R. Zde diskutujeme práci, různé techniky a široké vysvětlení různých metod používaných v Logistické regrese v R. Další informace naleznete také v následujících článcích -

  1. Rámce strojového učení
  2. R vs Python
  3. Funkce řetězce Python
  4. Je Python skriptovacím jazykem
  5. Binomické rozdělení v R | Syntax
  6. Regrese vs. klasifikace

Kategorie: