Úvod do multivariační regrese
- Termín v multivariate znamená model s více než jednou proměnnou
- Multivariační regrese je součástí vícerozměrné statistiky.
- Multivariační regrese je technika používaná k odhadu jediného regresního modelu, pokud existuje více než jedna výsledná proměnná.
- Vícerozměrná regrese obvykle používala algoritmus strojového učení, což je algoritmus supervidovaného učení.
Proč jeden regresní model nebude fungovat?
- Jak je známo, regresní analýza se používá hlavně k prozkoumání vztahu mezi závislou a nezávislou proměnnou.
- Ve skutečném světě existuje mnoho situací, kdy mnoho nezávislých proměnných má vliv na jiné proměnné, proto musíme přejít k jiným možnostem než jediný regresní model, který dokáže vzít pouze jednu nezávislou proměnnou.
Co je multivariační regrese?
- Multivariační regrese pomáhá měřit úhel více než jedné nezávislé proměnné a více než jedné závislé proměnné. Zjistí vztah mezi proměnnými (lineárně příbuzný).
- Sloužil k predikci chování výsledné proměnné a asociace predikčních proměnných a toho, jak se mění predikční proměnné.
- Může být aplikován na mnoho praktických oblastí, jako je politika, ekonomie, medicína, výzkumné práce a mnoho různých druhů podniků.
- Vícerozměrná regrese je jednoduchým rozšířením vícenásobné regrese.
- Vícenásobná regrese se používá k predikci a výměně hodnot jedné proměnné na základě společné hodnoty více než jedné hodnoty prediktorových proměnných.
- Nejprve si vezmeme příklad, abychom pochopili použití vícerozměrné regrese, poté hledáme řešení této záležitosti.
Příklady multivariační regrese
- Pokud společnost E-commerce Company shromáždila data svých zákazníků, jako je věk, zakoupená historie zákazníka, pohlaví a společnost, chtějí najít vztah mezi těmito různými závislými osobami a nezávislými proměnnými.
- Trenér tělocvičny shromáždil údaje o svém klientovi, které přicházejí do jeho tělocvičny a chtějí sledovat některé věci klienta, které jsou zdraví, stravovací návyky (jaký druh produktového klienta konzumuje každý týden), hmotnost klienta. To chce najít vztah mezi těmito proměnnými.
Jak jste viděli ve výše uvedených dvou příkladech, že v obou situacích existuje více než jedna proměnná, některé jsou závislé a některé jsou nezávislé, takže jediná regrese nestačí k analýze tohoto druhu dat.
Zde je multivariační regrese, která přichází na obrázek.
1. Výběr funkce -
Výběr funkcí hraje nejdůležitější roli v multivariační regresi.
Nalezení funkce, která je potřebná pro nalezení, která proměnná je na této funkci závislá.
2. Normalizace funkcí -
Pro lepší analýzu je třeba škálovat funkce tak, aby byly uvedeny do specifického rozsahu. Můžeme také změnit hodnotu každé funkce.
3. Vyberte funkci ztráty a hypotézu -
Funkce ztráty vypočítá ztrátu, když hypotéza předpovídá špatnou hodnotu.
A hypotéza znamená predikovanou hodnotu z proměnné funkce.
4. Nastavte parametry hypotéz -
Nastavte parametr hypotézy, který může snížit ztrátovou funkci a předvídat.
5. Minimalizujte funkci ztráty -
Minimalizace ztráty pomocí některých algoritmů minimalizace ztrát a jejich použití v datovém souboru, který může pomoci upravit parametry hypotéz. Jakmile je ztráta minimalizována, lze ji použít pro predikci.
Existuje mnoho algoritmů, které lze použít ke snížení ztráty, jako je klesání gradientu.
6. Otestujte funkci hypotéz -
Zkontrolujte funkci hypotézy, jak správně předpovídá hodnoty, otestujte je na testovacích datech.
Kroky ke sledování archivu Multivariate Regression
1) Importujte potřebné běžné knihovny, například numpy, pandy
2) Přečtěte si dataset pomocí knihovny pandas
3) Jak jsme diskutovali výše, musíme data normalizovat, abychom dosáhli lepších výsledků. Proč normalizace, protože každá funkce má jiný rozsah hodnot.
4) Vytvořte model, který dokáže archivovat regresi, pokud používáte lineární regresní rovnici
Y = mx + c
Ve kterém x je vstup, m je šikmá čára, c je konstantní, y je výstupní proměnná.
5) Trénujte model pomocí hyperparametru. Pochopte hyperparametr nastavený podle modelu. Například rychlost učení, epochy, iterace.
6) Jak bylo uvedeno výše, jak hraje hypotéza důležitou roli v analýze, ověřuje hypotézu a měří funkci ztráta / cena.
7) Funkce ztráta / cena nám pomůže měřit, jak je hypotetická hodnota pravdivá a přesná.
8) Minimalizace funkce ztráta / cena pomůže modelu zlepšit predikci.
9) Rovnice ztráty může být definována jako součet kvadratického rozdílu mezi predikovanou hodnotou a skutečnou hodnotou vydělený dvojnásobkem velikosti datové sady.
10) Pro minimalizaci funkce Ztráta / cena použijte gradient klesání, začíná náhodnou hodnotou a najde bod, jehož funkce ztráty je nejméně.
Podle výše uvedeného můžeme implementovat multivariační regresi
Výhody multivariační regrese
- Technika s více proměnnými umožňuje najít vztah mezi proměnnými nebo vlastnostmi
- Pomáhá najít korelaci mezi nezávislými a závislými proměnnými.
Výhody multivariační regrese
- Multivariační techniky jsou trochu složitý a matematický výpočet na vysoké úrovni
- Výstup modelu s více proměnnými regrese není snadno interpretovatelný a někdy proto, že některé ztráty a chyby nejsou identické.
- Nelze ji použít na malý datový soubor, protože výsledky jsou jednodušší ve větších datových sadách.
Závěr - Multivariační regrese
- Hlavním účelem použití vícerozměrné regrese je, když máte k dispozici více než jednu proměnnou a v takovém případě nebude jednorázová lineární regrese fungovat.
- Hlavně reálný svět má více proměnných nebo funkcí, když se do hry dostává více proměnných / funkcí, používá se vícerozměrná regrese.
Doporučené články
Toto je průvodce multivariační regresí. Zde diskutujeme úvod, příklady multivariační regrese spolu s výhodami a nevýhodami. Další informace naleznete také v dalších navrhovaných článcích -
- Regresní formule
- Kurz Data Science v Londýně
- Operátoři SAS
- Techniky vědy o údajích
- Proměnné v JavaScriptu
- Největší rozdíly regrese vs. klasifikace