Přehled modelování lineární regrese

Když se začnete učit o algoritmech strojového učení, začnete se učit o různých způsobech algoritmů ML, tj. Učení pod dohledem, bez dozoru, částečně pod dohledem a posilování. V tomto článku se budeme zabývat supervidovaným učením a jedním ze základních, ale výkonných algoritmů: lineární regrese.

Proto je pod dohledem učení učení, ve kterém stroj trénujeme, aby pochopil vztah mezi vstupními a výstupními hodnotami uvedenými v sadě tréninkových dat a poté pomocí stejného modelu předpovídal výstupní hodnoty pro testovací datový soubor. Takže pokud máme výstup nebo označení již v našem souboru tréninkových dat a jsme si jisti, že poskytovaný výstup má smysl odpovídající vstupu, použijeme supervidované učení. Algoritmy pod dohledem jsou klasifikovány do regrese a klasifikace.

Algoritmy regrese se používají, když si všimnete, že výstup je spojitá proměnná, zatímco klasifikační algoritmy se používají, když je výstup rozdělen do sekcí jako Pass / Fail, Good / Average / Bad atd. Máme různé algoritmy pro provádění regrese nebo klasifikace akce s algoritmem lineární regrese jako základním algoritmem v regresi.

Pokud jde o tuto regresi, než se dostanu do algoritmu, dovolte mi, abych pro vás vytvořil základnu. Ve školství doufám, že si pamatujete koncept rovnice rovnic. Dovolte mi to stručně. Dostali jste dva body na rovině XY, tj. Řekni (x1, y1) a (x2, y2), kde y1 je výstup x1 a y2 je výstup x2, pak je lineární rovnice, která prochází body, (y- y1) = m (x-x1) kde m je sklon přímky. Nyní, po nalezení rovnice přímky, pokud vám bude dán bod říkat (x3, y3), pak byste mohli snadno předvídat, zda bod leží na přímce nebo vzdálenost bodu od přímky. To byla základní regrese, kterou jsem udělal ve škole, aniž bych si uvědomil, že by to mělo v strojovém učení tak velký význam. Obecně v tom děláme pokus o identifikaci rovnice nebo křivky, která by mohla správně zapadat na vstup a výstup sady údajů o vlaku, a poté použít stejnou rovnici k predikci výstupní hodnoty sady údajů o zkoušce. Výsledkem by byla nepřetržitá požadovaná hodnota.

Definice lineární regrese

Lineární regrese je ve skutečnosti již velmi dlouhou dobu (asi 200 let). Je to lineární model, tj. Předpokládá lineární vztah mezi vstupními proměnnými (x) a jedinou výstupní proměnnou (y). Y se zde vypočítá lineární kombinací vstupních proměnných.

Máme dva typy lineární regrese

Jednoduchá lineární regrese

Když existuje jediná vstupní proměnná, tj. Lineární rovnice je c

považován za y = mx + c, pak je to jednoduchá lineární regrese.

Vícenásobná lineární regrese

Pokud existuje více vstupních proměnných, tj. Lineární rovnice je považována za y = ax 1 + bx 2 +… nx n, pak je to vícenásobná lineární regrese. K přípravě nebo tréninku regresní rovnice z dat se používají různé techniky a nejběžnější z nich se nazývá obyčejná nejmenší čtverce. Model vytvořený pomocí uvedené metody se nazývá lineární regrese nejmenších čtverců nebo jen regrese nejmenších čtverců. Model se používá, když jsou vstupní hodnoty a výstupní hodnota, které mají být určeny, číselné hodnoty. Pokud existuje pouze jeden vstup a jeden výstup, pak je vytvořená rovnice přímková rovnice, tj

y = B0x+B1

kde se koeficienty linie stanoví statistickými metodami.

Jednoduché modely lineární regrese jsou v ML velmi vzácné, protože obvykle budeme mít různé vstupní faktory, abychom určili výsledek. Pokud existuje více vstupních hodnot a jedna výstupní hodnota, pak je vytvořená rovnice rovnicí nebo hyper-rovinou.

y = ax 1 +bx 2 +…nx n

Hlavní myšlenkou v regresním modelu je získání lineární rovnice, která nejlépe odpovídá datům. Nejvhodnější čára je ta, kde je celková predikční chyba pro všechny datové body považována za co nejmenší. Chyba je vzdálenost mezi bodem v rovině a regresní přímkou.

Příklad

Začněme příkladem jednoduché lineární regrese.

Vztah mezi výškou a hmotností osoby je přímo úměrný. Byla provedena studie na dobrovolnících, aby se stanovila výška a ideální hmotnost osoby a hodnoty byly zaznamenány. Toto bude považováno za náš soubor údajů o školení. Použitím tréninkových dat se vypočítá regresní lineární rovnice, která dá minimální chybu. Tato lineární rovnice se pak používá pro vytváření předpovědí na nová data. To znamená, že pokud dáme výšku osoby, pak by měla být odpovídající váha předpovězena námi vyvinutým modelem s minimální nebo nulovou chybou.

Y(pred) = b0 + b1*x

Hodnoty b0 a b1 musí být zvoleny tak, aby minimalizovaly chybu. Pokud je součet druhé mocniny chyby považován za metriku pro vyhodnocení modelu, pak cílem je získat řádek, který chybu nejlépe sníží.

Vyrovnáváme chybu, aby se pozitivní a negativní hodnoty navzájem nezrušily. Pro model s jedním prediktorem:

Výpočet průniku (b0) v přímkové rovnici se provádí pomocí:

Výpočet koeficientu pro vstupní hodnotu x se provádí pomocí:

Porozumění koeficientu b 1 :

  • Pokud b 1 > 0, pak x (vstup) a y (výstup) jsou přímo úměrné. To je zvýšení x zvýší y, jako je zvýšení výšky, zvýšení hmotnosti.
  • Pokud b 1 <0, pak x (prediktor) a y (cíl) jsou nepřímo úměrné. To znamená, že zvýšení x se sníží y, jako je například zvýšení rychlosti vozidla, čas se sníží.

Porozumění koeficientu b 0 :

  • Bo přijímá zbytkovou hodnotu pro model a zajišťuje, že predikce není zkreslená. Pokud nemáme termín B 0, pak je lineární rovnice (y = B 1 x) nucena projít počátkem, tj. Vstupní a výstupní hodnoty vložené do výsledku modelu v 0. To však nikdy nebude, pokud budeme mít 0 na vstupu bude potom B 0 průměr všech předpovídaných hodnot, když x = 0. Nastavení všech hodnot prediktorů na 0 v případě x = 0 povede ke ztrátě dat a je často nemožné.

Kromě výše uvedených koeficientů lze tento model vypočítat také pomocí normálních rovnic. Ve svém nadcházejícím článku se budu dále zabývat používáním normálních rovnic a návrhem jednoduchého / vícerozměrného regresního modelu.

Doporučené články

Toto je průvodce modelováním lineární regrese. Zde diskutujeme definici, typy lineární regrese, která zahrnuje jednoduchou a vícenásobnou lineární regresi spolu s některými příklady. Další informace naleznete také v následujících článcích -

  1. Lineární regrese v R
  2. Lineární regrese v Excelu
  3. Prediktivní modelování
  4. Jak vytvořit GLM v R?
  5. Porovnání lineární regrese vs. logistické regrese

Kategorie: