Úvod do KNN Algoritmu v R
V KNN algoritmu v R znamená KNN algoritmus K nejbližšího souseda a R je programovací jazyk. Říká se, že jde o nejjednodušší algoritmus strojového učení. KNN je dohlížený algoritmus, který klasifikuje datové body do cílové třídy porovnáním vlastností s nejbližším sousedem.
Příklad: Předpokládejme, že chcete klasifikovat dotykovou obrazovku a telefon s klávesnicí. Rozlišování obou telefonů zahrnuje různé faktory. Faktorem, který odlišuje oba telefony, je však klávesnice. Když tedy dostaneme datový bod (tj. Telefon). Porovnáme ji s podobnými vlastnostmi sousedních datových bodů a klasifikujeme ji jako klávesnici nebo dotykový telefon.
Vlastnosti KNN Algorithm
Zde budeme studovat vlastnosti KNN Algoritmu:
- Algoritmus KNN používá vstupní data k predikci výstupních datových bodů.
- Algoritmus lze použít na různé soubory problémů.
- Zaměřuje se na podobnost funkce pro klasifikaci dat.
- KNN algoritmus zpracovává realistická data a nedělá žádné předpoklady o datových bodech.
- KNN si pamatuje tréninkovou datovou sadu spíše než intuitivní. Lze také říci, že má líný přístup.
- Může vyřešit problémy klasifikace a regrese.
Řešení problémů v KNN Algoritmu v R
Následující problém s řešením:
1. Klasifikační problém
V klasifikačním problému jsou hodnoty diskrétní, jako byste chtěli jíst pizzu s polevou nebo bez ní. Existuje společná půda. Algoritmus KNN pomáhá při řešení takového problému.
2. Regresní problém
Regresní problém přichází do obrazu, když máme závislou proměnnou a nezávislou proměnnou. Příklad: BMI index. Každý řádek obvykle obsahuje pozorovací nebo datový bod a příklad.
KNN Algoritmus v R
Pojďme se podívat na kroky v algoritmu, který je třeba dodržovat:
Krok 1: Vložte vstupní data.
Krok 2: Inicializujte K pomocí počtu nejbližších sousedů.
Krok 3: Výpočet dat (tj. Vzdálenost mezi aktuálním a nejbližším sousedem)
Krok 4: Přidání vzdálenosti k aktuálně uspořádané sadě dat.
Krok 5: Vyzvednutí záznamů K a jejich označení.
Krok 6: Vraťte střední hodnotu pro regresní problém.
Krok 7: Vraťte hodnotu režimu pro problémy s klasifikací.
Při implementaci algoritmu KNN je třeba mít na paměti
- Měli bychom se ujistit, že hodnota K je větší než jedna, což v predikci brání přesné.
- Čím větší je hodnota K, tím přesnější může být predikce díky většině.
- Je lepší mít K jako liché číslo. V opačném případě to může vést k rozbití.
KNN Pseudokód
V níže uvedeném vzorci představuje proměnné a představuje datové body, kde (i = 1, 2, 3….)
Set(, )
Případy užití
Následuje příklad použití v KNN Algoritmu v R:
1. Porovnání produktů a pomoc v doporučeních pro nakupování
Když si koupíme notebook nebo počítač z webové stránky elektronického obchodu, vidíme také nákupní doporučení, jako je nákup antivirového softwaru nebo reproduktorů. To vše proto, že když si předchozí zákazník koupí notebook, kupuje se většinou spolu s antivirem nebo reproduktory. Strojové učení pomáhá v doporučeních elektronického obchodování.
2. Doporučení jídla
Strojové učení také pomáhá při doporučeních na základě dříve objednaného jídla a podle toho také navrhuje restaurace.
Příklad KNN algoritmu
Příklady algoritmu KNN jsou následující:
1. Import dat
Vezměme si fiktivní údaje o nás a předpovídáme velikost trička chlapa pomocí výšky a váhy.
Výška (cm) | Hmotnost (kg) | Velikost |
140 | 58 | S |
140 | 59 | S |
140 | 63 | S |
150 | 59 | M |
152 | 60 | M |
153 | 60 | M |
154 | 61 | M |
155 | 64 | M |
156 | 64 | M |
157 | 61 | M |
160 | 62 | L |
161 | 65 | L |
162 | 62 | L |
163 | 63 | L |
163 | 66 | L |
165 | 63 | L |
165 | 64 | L |
165 | 68 | L |
2. Nalezení podobností pomocí výpočtu vzdálenosti
Můžeme použít jak Manhattan, tak euklidovskou vzdálenost, protože data jsou nepřetržitá. Vypočítáme vzdálenost mezi novým vzorkem a tréninkovými datovými sadami a poté najdeme K-nejbližší.
Příklad: Řekněme, že „Raj“ má výšku 165 cm a váží 63 kg. Euklidovskou vzdálenost vypočítáme pomocí prvního pozorování s novým vzorkem: SQRT ((165-140) 2 + (63-58) 2)
3. Nalezení K-nejbližších sousedů
Předpokládejme, že K = 4, existují 4 zákazníci, z nichž 3 měli střední velikost a 1 velkou velikost. Nejlepší předpovědí je Raj střední velikosti.
Rozdíl mezi průměrem KNN a K
Rozdíl jsou následující:
- KNN je dohlížený algoritmus (závislá proměnná), zatímco K-průměr je bezohledový algoritmus (žádná závislá proměnná).
- K-průměr používá klastrovací techniku k rozdělení datových bodů, které tvoří K-clustery.KNN používá K-nejbližší sousedy pro klasifikaci datových bodů a jejich kombinování.
Výhody a nevýhody KNN
Výhody jsou následující:
- KNN algoritmus je univerzální, lze jej použít pro klasifikaci a regresní problémy.
- Není třeba předchozího modelu k sestavení KNN algoritmu.
- Snadná a snadná implementace.
Nevýhody jsou následující:
- Algoritmus s rostoucím počtem vzorků (tj. Bez proměnných)
Doporučené články
Toto je průvodce algoritmem KNN v R. Zde diskutujeme funkce, příklady, pseudokód, kroky, které je třeba v algoritmu KNN dodržovat. Další informace naleznete také v dalších souvisejících článcích.
- Algoritmy pro vědu o datech
- Co je to genetický algoritmus?
- Algoritmy směrování
- Algoritmy neuronových sítí
- Algoritmus C ++ | Příklady algoritmu C ++