KNN Algoritmus v R

Úvod do KNN Algoritmu v R

V KNN algoritmu v R znamená KNN algoritmus K nejbližšího souseda a R je programovací jazyk. Říká se, že jde o nejjednodušší algoritmus strojového učení. KNN je dohlížený algoritmus, který klasifikuje datové body do cílové třídy porovnáním vlastností s nejbližším sousedem.

Příklad: Předpokládejme, že chcete klasifikovat dotykovou obrazovku a telefon s klávesnicí. Rozlišování obou telefonů zahrnuje různé faktory. Faktorem, který odlišuje oba telefony, je však klávesnice. Když tedy dostaneme datový bod (tj. Telefon). Porovnáme ji s podobnými vlastnostmi sousedních datových bodů a klasifikujeme ji jako klávesnici nebo dotykový telefon.

Vlastnosti KNN Algorithm

Zde budeme studovat vlastnosti KNN Algoritmu:

Algoritmus KNN používá vstupní data k predikci výstupních datových bodů.
Algoritmus lze použít na různé soubory problémů.
Zaměřuje se na podobnost funkce pro klasifikaci dat.
KNN algoritmus zpracovává realistická data a nedělá žádné předpoklady o datových bodech.
KNN si pamatuje tréninkovou datovou sadu spíše než intuitivní. Lze také říci, že má líný přístup.
Může vyřešit problémy klasifikace a regrese.

Řešení problémů v KNN Algoritmu v R

Následující problém s řešením:

1. Klasifikační problém

V klasifikačním problému jsou hodnoty diskrétní, jako byste chtěli jíst pizzu s polevou nebo bez ní. Existuje společná půda. Algoritmus KNN pomáhá při řešení takového problému.

2. Regresní problém

Regresní problém přichází do obrazu, když máme závislou proměnnou a nezávislou proměnnou. Příklad: BMI index. Každý řádek obvykle obsahuje pozorovací nebo datový bod a příklad.

Pojďme se podívat na kroky v algoritmu, který je třeba dodržovat:

Krok 1: Vložte vstupní data.

Krok 2: Inicializujte K pomocí počtu nejbližších sousedů.

Krok 3: Výpočet dat (tj. Vzdálenost mezi aktuálním a nejbližším sousedem)

Krok 4: Přidání vzdálenosti k aktuálně uspořádané sadě dat.

Krok 5: Vyzvednutí záznamů K a jejich označení.

Krok 6: Vraťte střední hodnotu pro regresní problém.

Krok 7: Vraťte hodnotu režimu pro problémy s klasifikací.

Při implementaci algoritmu KNN je třeba mít na paměti

Měli bychom se ujistit, že hodnota K je větší než jedna, což v predikci brání přesné.
Čím větší je hodnota K, tím přesnější může být predikce díky většině.
Je lepší mít K jako liché číslo. V opačném případě to může vést k rozbití.

KNN Pseudokód

V níže uvedeném vzorci představuje proměnné a představuje datové body, kde (i = 1, 2, 3….)

Set(, )

Případy užití

Následuje příklad použití v KNN Algoritmu v R:

1. Porovnání produktů a pomoc v doporučeních pro nakupování

Když si koupíme notebook nebo počítač z webové stránky elektronického obchodu, vidíme také nákupní doporučení, jako je nákup antivirového softwaru nebo reproduktorů. To vše proto, že když si předchozí zákazník koupí notebook, kupuje se většinou spolu s antivirem nebo reproduktory. Strojové učení pomáhá v doporučeních elektronického obchodování.

2. Doporučení jídla

Strojové učení také pomáhá při doporučeních na základě dříve objednaného jídla a podle toho také navrhuje restaurace.

Příklad KNN algoritmu

Příklady algoritmu KNN jsou následující:

1. Import dat

Vezměme si fiktivní údaje o nás a předpovídáme velikost trička chlapa pomocí výšky a váhy.

Výška (cm)	Hmotnost (kg)	Velikost
140	58	S
140	59	S
140	63	S
150	59	M
152	60	M
153	60	M
154	61	M
155	64	M
156	64	M
157	61	M
160	62	L
161	65	L
162	62	L
163	63	L
163	66	L
165	63	L
165	64	L
165	68	L

2. Nalezení podobností pomocí výpočtu vzdálenosti

Můžeme použít jak Manhattan, tak euklidovskou vzdálenost, protože data jsou nepřetržitá. Vypočítáme vzdálenost mezi novým vzorkem a tréninkovými datovými sadami a poté najdeme K-nejbližší.

Příklad: Řekněme, že „Raj“ má výšku 165 cm a váží 63 kg. Euklidovskou vzdálenost vypočítáme pomocí prvního pozorování s novým vzorkem: SQRT ((165-140) 2 + (63-58) 2)

3. Nalezení K-nejbližších sousedů

Předpokládejme, že K = 4, existují 4 zákazníci, z nichž 3 měli střední velikost a 1 velkou velikost. Nejlepší předpovědí je Raj střední velikosti.

Rozdíl mezi průměrem KNN a K

Rozdíl jsou následující:

KNN je dohlížený algoritmus (závislá proměnná), zatímco K-průměr je bezohledový algoritmus (žádná závislá proměnná).
K-průměr používá klastrovací techniku k rozdělení datových bodů, které tvoří K-clustery.KNN používá K-nejbližší sousedy pro klasifikaci datových bodů a jejich kombinování.

Výhody a nevýhody KNN

Výhody jsou následující:

KNN algoritmus je univerzální, lze jej použít pro klasifikaci a regresní problémy.
Není třeba předchozího modelu k sestavení KNN algoritmu.
Snadná a snadná implementace.

Nevýhody jsou následující:

Algoritmus s rostoucím počtem vzorků (tj. Bez proměnných)

Doporučené články

Toto je průvodce algoritmem KNN v R. Zde diskutujeme funkce, příklady, pseudokód, kroky, které je třeba v algoritmu KNN dodržovat. Další informace naleznete také v dalších souvisejících článcích.

Algoritmy pro vědu o datech
Co je to genetický algoritmus?
Algoritmy směrování
Algoritmy neuronových sítí
Algoritmus C ++ | Příklady algoritmu C ++

KNN Algoritmus v R - Kompletní detail v KNN Algoritmu v R

Obsah:

Úvod do KNN Algoritmu v R

Vlastnosti KNN Algorithm

Řešení problémů v KNN Algoritmu v R

1. Klasifikační problém

2. Regresní problém