Regrese vs. klasifikace Hlavní klíčové rozdíly a srovnání

Rozdíl mezi regresí versus klasifikace

V tomto článku Pojďme proti klasifikaci a pojďme diskutovat o klíčových rozdílech mezi regresí a klasifikací. Strojové učení je obecně rozděleno do dvou typů, kterými jsou strojové učení pod dohledem a strojové učení bez dozoru. Ve strojovém učení s dohledem máme v datové sadě známou výstupní hodnotu a na jejím základě školíme model a používáme ji pro predikci, zatímco v strojním učení bez dozoru nemáme známou sadu výstupních hodnot. Než budeme rozlišovat mezi klasifikací a regresí, pochopme, co tato terminologie znamená ve strojovém učení. Regrese je algoritmus ve strojovém učení pod dohledem, které lze vyškolit k předpovídání výstupů reálných čísel. Klasifikace je algoritmus ve strojovém učení pod dohledem, který je vyškolen k identifikaci kategorií a předpovídání, ve které kategorii spadají do nových hodnot.

Srovnání hlava-hlava mezi regresí vs. klasifikací (infografika)

Níže je 5 nejlepších srovnání mezi regresí a klasifikací :

Klíčové rozdíly mezi regresí vs. klasifikací

Pojďme diskutovat o některých klíčových rozdílech mezi regresí vs. klasifikací v následujících bodech:

Klasifikace je především o předpovídání štítku nebo kategorie. Klasifikační algoritmus klasifikuje požadovanou sadu dat do jednoho ze dvou nebo více štítků. Algoritmus, který pracuje se dvěma třídami nebo kategoriemi, je známý jako binární klasifikátor, a pokud existují více než dvě třídy, lze jej nazvat vícestupňovým klasifikačním algoritmem.
Regrese je o nalezení optimální funkce pro identifikaci dat spojitých reálných hodnot a o předpovědi této veličiny. Regrese s více proměnnými jako vstup nebo funkce pro trénování algoritmu se nazývá multivariační regresní problém. Pokud jsou v regresním problému vstupní hodnoty závislé nebo seřazené podle času, pak se jedná o problém předpovídání časové řady.
Klasifikační model však také předpovídá spojitou hodnotu, která je pravděpodobností výskytu události patřící do příslušné výstupní třídy. Pravděpodobnost události zde představuje pravděpodobnost daného příkladu patřícího do určité třídy. Předpovídaná hodnota pravděpodobnosti může být převedena na hodnotu třídy výběrem označení třídy, která má nejvyšší pravděpodobnost.
Pochopme to lépe tím, že uvidíme příklad, předpokládejme, že model trénujeme tak, aby předpovídal, zda má někdo rakovinu nebo ne na základě některých funkcí. Pokud dostaneme pravděpodobnost, že osoba má rakovinu jako 0, 8 a nemá rakovinu jako 0, 2, můžeme převést pravděpodobnost 0, 8 na značku třídy s rakovinou, protože má nejvyšší pravděpodobnost.
Jak bylo uvedeno výše v klasifikaci, abychom zjistili, jak dobrý je klasifikační model, vypočítáváme přesnost. Podívejme se, jak se provádí výpočet, přesnost klasifikace lze provést tak, že se poměr správných předpovědí k celkovým předpovědím vynásobí 100. Pokud je provedeno 50 předpovědí a 10 z nich je správné a 40 je nesprávných, přesnost bude 20 %.

Přesnost = (Počet správných předpovědí / Celkový počet předpovědí) * (100)

Přesnost = (10/50) * (100)
Přesnost = 20%

Jak bylo uvedeno výše v regresi, vidět, jak dobrý je regresní model nejoblíbenějším způsobem, je vypočítat kořenovou střední kvadratickou chybu (RMSE). Podívejme se, jak bude výpočet proveden.

Předpokládaná hodnota regresního modelu je 4, 9, zatímco skutečná hodnota je 5, 3.

Předpokládaná hodnota regresního modelu je 2, 3, zatímco skutečná hodnota je 2, 1.

Předpovídaná hodnota regresního modelu je 3, 4, zatímco skutečná hodnota je 2, 9.

Root znamená, že čtvercová chyba může být vypočtena pomocí vzorce.

Chyba na druhou je (5, 3 - 4, 9) 2 = 0, 16, (2, 1 až 2, 3) 2 = 0, 04, (2, 9 až 3, 4) 2 = 0, 25

Průměr chyby na druhou = 0, 45 / 3 = 0, 15

Střední kořenová chyba kořene = druhá odmocnina 0, 15 = 0, 38

To je RMSE = 0, 38. Existuje mnoho dalších metod pro výpočet účinnosti modelu, ale RMSE je nejpoužívanější, protože RMSE nabízí skóre chyby ve stejných jednotkách jako předpokládaná hodnota.

Příklady:

Pro většinu inženýrů v oboru dat je obtížné vybrat si mezi regresí a klasifikací v počáteční fázi jejich kariéry. Abychom to usnadnili, podívejme se, jak vypadají problémy s klasifikací a jak problémy s regresí vypadají,

Klasifikace

Předpovídání, zda zítra prší nebo ne.
Předpovídání osoby by si mělo koupit takové dobro nebo nezískat zisk.
Předpovídání, zda má osoba nemoc nebo ne.

Pokud si pro každou situaci všimnete, může zde být buď předpovězená hodnota Ano nebo Ne.

Regrese

Předpovídání ceny půdy.
Předpovídání ceny akcií.

Pokud si pro každou situaci všimnete, většina z nich má číselnou hodnotu jako předpokládaný výstup.

Srovnávací tabulka regrese vs. klasifikace

Následující tabulka shrnuje srovnání mezi regresí a klasifikací :

Parametr	Regrese	Klasifikace
Typ funkce mapování	V těchto algoritmech bude vybrána mapovací funkce typu, který může sladit hodnoty s průběžným výstupem.	V těchto algoritmech bude vybrána mapovací funkce typu, který může sladit hodnoty s předdefinovanými třídami.
Zahrnuje předpověď	Pro tento typ algoritmů předpovídaná data patří do kategorie spojitých hodnot. (Jako 23, 34, 45, 67, 28)	Pro tento typ dat předpokládaných algoritmem patří do kategorie diskrétních hodnot. (Jako Ano nebo Ne, patří do A nebo B nebo C).
Metoda výpočtu	Root Mean Square Error bude vypočtena tak, aby byla identifikována ta nejlepší shoda datové sady.	Přesnost se vypočítá tak, aby se identifikovalo nejlepší přizpůsobení souboru dat.
Povaha predikovaných dat	Povaha predikovaných dat je uspořádána. (Předpokládané hodnoty budou v určité posloupnosti).	Povaha predikovaných dat není uspořádána. (Předpokládané hodnoty nebudou v žádném pořadí).
Algoritmy	Podporuje vektorové regresní a regresní stromy jsou také známé jako náhodné lesy, což jsou některé z populárních příkladů regresních algoritmů.	Naive Bayes, rozhodovací stromy a K Nearest Neighbors jsou některé z populárních příkladů klasifikačních algoritmů.

Závěr

To jsou některé z klíčových rozdílů mezi klasifikací a regresí. V některých případech lze průběžné výstupní hodnoty předpovídané v regresi seskupovat do štítků a změnit na klasifikační modely. Musíme tedy jasně pochopit, který z nich má být zvolen na základě situace a co chceme, aby byl předpokládaný výstup.

Doporučené články

Toto je průvodce největším rozdílem mezi regresí a klasifikací. Zde diskutujeme také klíčové rozdíly mezi regrese a klasifikací s infografikou a srovnávací tabulkou. Další informace naleznete také v následujících článcích -