Přehled ztrátových funkcí ve strojovém učení

Stejně jako nás učitelé vedou, ať už na našich akademických pracovištích děláme dobře, nebo ne, i funkce Ztráty vykonávají stejnou práci. Je to metoda hodnocení, jak dobře náš algoritmus modeluje data. Funkce ztráty jsou hlavním zdrojem hodnocení v moderním strojovém učení. Když změníte svůj algoritmus s cílem vylepšit váš model, hodnota ztráty funkce vám řekne, zda děláte pokrok nebo ne. Naším primárním cílem by mělo být snížení ztrátové funkce pomocí optimalizace. V tomto článku budeme diskutovat o tom, jak fungují ztrátové funkce a různé typy ztrátových funkcí.

Jak fungují funkce ztráty?

Slovo „Ztráta“ uvádí pokutu za nedosažení očekávaného výstupu. Pokud je odchylka v předpovídané hodnotě oproti očekávané hodnotě našeho modelu velká, pak ztrátová funkce dává vyšší číslo jako výstup a pokud je odchylka malá a mnohem blíže k očekávané hodnotě, vydá menší číslo.

Zde je příklad, kdy se snažíme předpovídat prodejní cenu domů ve městech metra.

Předpovídal

Prodejní cena (v lakech)

Aktuální

Prodejní cena (v lakech)

Odchylka (ztráta)
Bangalore: 45 0 (Všechny předpovědi jsou správné)
Pune: 35
Chennai: 40
Bangalore: 40Bangalore: 45 5 lakh pro Bangalore, 2 lakh pro Chennai
Pune: 35Pune: 35
Chennai: 38Chennai: 40
Bangalore: 43 2 lakh pro Bangalore, 5 lakh pro, Pune2 lakh pro Chennai,
Pune: 30
Chennai: 45

Je důležité si uvědomit, že na množství odchylky nezáleží, na tom, na čem záleží, je to, zda hodnota předpovídaná naším modelem je správná nebo špatná. Funkce ztráty se liší podle tvého problému, na který se strojové učení aplikuje. Nákladová funkce je další termín, který se pro funkci ztráty používá zaměnitelně, ale má poněkud odlišný význam. Ztráta funkce je pro jediný příklad školení, zatímco funkce nákladů je průměrná ztráta za celý datový soubor vlaku.

Typy ztrátových funkcí ve strojovém učení

Níže jsou uvedeny různé typy ztrátových funkcí ve strojovém učení, které jsou následující:

1) Funkce regresní ztráty:

Lineární regrese je základním konceptem této funkce. Funkce regresní ztráty vytvářejí lineární vztah mezi závislou proměnnou (Y) a nezávislou proměnnou (X), proto se snažíme na tyto proměnné umístit nejlepší linii v prostoru.

Y = X0 + X1 + X2 + X3 + X4… + Xn

X = nezávislé proměnné

Y = Závislá proměnná

  • Průměrná chyba ztráty na druhou:

MSE (chyba L2) měří průměrný kvadratický rozdíl mezi skutečnými a predikovanými hodnotami podle modelu. Výstupem je jediné číslo spojené se sadou hodnot. Naším cílem je snížit MSE pro zlepšení přesnosti modelu.

Zvažte lineární rovnici y = mx + c, můžeme odvodit MSE jako:

MSE = 1 / N ∑i = 1 až n (y (i) - (mx (i) + b)) 2

Zde N je celkový počet datových bodů, 1 / N =i = 1 až n je střední hodnota a y (i) je skutečná hodnota a mx (i) + b jeho předpovídaná hodnota.

  • Střední ztráta logaritmické chyby (MSLE):

MSLE měří poměr mezi skutečnou a předpokládanou hodnotou. Zavádí asymetrii v křivce chyb. MSLE se stará pouze o procentuální rozdíl skutečných a předpokládaných hodnot. Může to být dobrá volba jako ztrátová funkce, když chceme předpovídat prodejní ceny domů, prodejní ceny pekárny a data jsou nepřetržitá.

Zde lze ztrátu vypočítat jako průměr pozorovaných dat kvadratických rozdílů mezi logem transformovanými skutečnými a predikovanými hodnotami, které lze uvést jako:

L = 1nn∑i = 1 (log (y (i) +1) - log (y (i) +1)) 2

  • Střední absolutní chyba (MAE):

MAE vypočítá součet absolutních rozdílů mezi skutečnými a predikovanými proměnnými. To znamená, že měří průměrnou velikost chyb v sadě predikovaných hodnot. Použití střední čtvercové chyby je snazší vyřešit, ale použití absolutní chyby je robustnější pro odlehlé hodnoty. Odlehlé hodnoty jsou ty hodnoty, které se extrémně odchylují od ostatních pozorovaných datových bodů.

MAE lze vypočítat jako:

L = 1nn∑i = 1∣∣r (i) - y (i) ∣∣

2) Funkce ztráty binární klasifikace:

Tyto ztrátové funkce jsou určeny k měření výkonnosti klasifikačního modelu. V tomto případě jsou datovým bodům přiřazeny jeden ze štítků, tj. Buď 0 nebo 1. Dále je lze klasifikovat jako:

  • Binární křížová entropie

Je to výchozí ztrátová funkce pro binární klasifikační problémy. Ztráta zkřížené entropie počítá výkon klasifikačního modelu, který dává výstup pravděpodobnostní hodnoty mezi 0 a 1. Ztráta zkřížené entropie se zvyšuje s tím, jak se předpovídaná hodnota pravděpodobnosti odchyluje od skutečné značky.

  • Ztráta závěsu

Ztráta závěsů může být použita jako alternativa k křížové entropii, která byla původně vyvinuta pro použití s ​​algoritmem podporujícího vektorového stroje. Ztráta závěsů funguje nejlépe s klasifikačním problémem, protože cílové hodnoty jsou v sadě (-1, 1). Umožňuje přiřadit větší chybu, pokud existuje rozdíl ve znaménku mezi skutečnými a předpovězenými hodnotami. Výsledkem je lepší výkon než křížová entropie.

  • Čtvercová ztráta závěsu

Rozšíření ztráty závěsu, které jednoduše vypočítá čtverec skóre ztráty závěsu. Snižuje chybovou funkci a usnadňuje numerickou práci. Nalezne hranici klasifikace, která určuje maximální rozpětí mezi datovými body různých tříd. Čtvercová ztráta závěsu se hodí pro ANO NEBO NENÍ druh rozhodovacích problémů, kde není pravděpodobnost odchylky.

3) Funkce klasifikace ztráty více tříd:

Vícestupňová klasifikace je prediktivní modely, ve kterých jsou datové body přiřazeny více než dvěma třídám. Každému kurzu je přiřazena jedinečná hodnota od 0 do (Number_of_classes - 1). Důrazně se doporučuje pro problémy s klasifikací obrázků nebo textů, kde jeden papír může mít více témat.

  • Víceúrovňová křížová entropie

V tomto případě jsou cílové hodnoty v sadě 0 až n tj. (0, 1, 2, 3… n). Vypočítává skóre, které bere průměrný rozdíl mezi skutečnými a předpovězenými hodnotami pravděpodobnosti a skóre je minimalizováno, aby bylo dosaženo co nejlepší přesnosti. Vícenásobná křížová entropie je výchozí funkcí ztráty v případě problémů s klasifikací textu.

  • Řídká křížová entropie s více třídami

Jeden proces horkého kódování způsobuje, že vícepřísová křížová entropie obtížně zpracovává velké množství datových bodů. Řídká křížová entropie tento problém řeší provedením výpočtu chyby bez použití jednorázového kódování.

  • Kullback Leibler Divergence Loss

Ztráta divergence KL počítá divergenci mezi distribucí pravděpodobnosti a distribucí na základní linii a zjišťuje, kolik informací je ztraceno v bitech. Výstupem je nezáporná hodnota, která určuje, jak blízko jsou dvě rozdělení pravděpodobnosti. K popisu divergence KL z hlediska pravděpodobnostního pohledu se používá poměr pravděpodobnosti.

V tomto článku jsme zpočátku pochopili, jak fungují ztrátové funkce, a poté jsme prozkoumali obsáhlý seznam ztrátových funkcí s použitými příklady případů. Pochopení je však prakticky výhodnější, proto se pokuste přečíst více a implementovat jej. Důkladně to vyjasní vaše pochybnosti.

Doporučené články

Toto je průvodce ztrátovými funkcemi ve strojovém učení. Zde diskutujeme, jak fungují funkce ztráty a typy ztrátových funkcí ve strojovém učení. Další informace naleznete také v následujících článcích -

  1. Metody strojového učení
  2. Úvod do strojového učení
  3. Technologie velkých dat
  4. Software Big Data Analytics
  5. Naučte se kategorie hyperparametrů
  6. Životní cyklus strojového učení 8 nejlepších fází

Kategorie: