Úvod do KNN Algoritmu v R

V KNN algoritmu v R znamená KNN algoritmus K nejbližšího souseda a R je programovací jazyk. Říká se, že jde o nejjednodušší algoritmus strojového učení. KNN je dohlížený algoritmus, který klasifikuje datové body do cílové třídy porovnáním vlastností s nejbližším sousedem.

Příklad: Předpokládejme, že chcete klasifikovat dotykovou obrazovku a telefon s klávesnicí. Rozlišování obou telefonů zahrnuje různé faktory. Faktorem, který odlišuje oba telefony, je však klávesnice. Když tedy dostaneme datový bod (tj. Telefon). Porovnáme ji s podobnými vlastnostmi sousedních datových bodů a klasifikujeme ji jako klávesnici nebo dotykový telefon.

Vlastnosti KNN Algorithm

Zde budeme studovat vlastnosti KNN Algoritmu:

  • Algoritmus KNN používá vstupní data k predikci výstupních datových bodů.
  • Algoritmus lze použít na různé soubory problémů.
  • Zaměřuje se na podobnost funkce pro klasifikaci dat.
  • KNN algoritmus zpracovává realistická data a nedělá žádné předpoklady o datových bodech.
  • KNN si pamatuje tréninkovou datovou sadu spíše než intuitivní. Lze také říci, že má líný přístup.
  • Může vyřešit problémy klasifikace a regrese.

Řešení problémů v KNN Algoritmu v R

Následující problém s řešením:

1. Klasifikační problém

V klasifikačním problému jsou hodnoty diskrétní, jako byste chtěli jíst pizzu s polevou nebo bez ní. Existuje společná půda. Algoritmus KNN pomáhá při řešení takového problému.

2. Regresní problém

Regresní problém přichází do obrazu, když máme závislou proměnnou a nezávislou proměnnou. Příklad: BMI index. Každý řádek obvykle obsahuje pozorovací nebo datový bod a příklad.

KNN Algoritmus v R

Pojďme se podívat na kroky v algoritmu, který je třeba dodržovat:

Krok 1: Vložte vstupní data.

Krok 2: Inicializujte K pomocí počtu nejbližších sousedů.

Krok 3: Výpočet dat (tj. Vzdálenost mezi aktuálním a nejbližším sousedem)

Krok 4: Přidání vzdálenosti k aktuálně uspořádané sadě dat.

Krok 5: Vyzvednutí záznamů K a jejich označení.

Krok 6: Vraťte střední hodnotu pro regresní problém.

Krok 7: Vraťte hodnotu režimu pro problémy s klasifikací.

Při implementaci algoritmu KNN je třeba mít na paměti

  • Měli bychom se ujistit, že hodnota K je větší než jedna, což v predikci brání přesné.
  • Čím větší je hodnota K, tím přesnější může být predikce díky většině.
  • Je lepší mít K jako liché číslo. V opačném případě to může vést k rozbití.

KNN Pseudokód

V níže uvedeném vzorci představuje proměnné a představuje datové body, kde (i = 1, 2, 3….)

Set(, )

Případy užití

Následuje příklad použití v KNN Algoritmu v R:

1. Porovnání produktů a pomoc v doporučeních pro nakupování

Když si koupíme notebook nebo počítač z webové stránky elektronického obchodu, vidíme také nákupní doporučení, jako je nákup antivirového softwaru nebo reproduktorů. To vše proto, že když si předchozí zákazník koupí notebook, kupuje se většinou spolu s antivirem nebo reproduktory. Strojové učení pomáhá v doporučeních elektronického obchodování.

2. Doporučení jídla

Strojové učení také pomáhá při doporučeních na základě dříve objednaného jídla a podle toho také navrhuje restaurace.

Příklad KNN algoritmu

Příklady algoritmu KNN jsou následující:

1. Import dat

Vezměme si fiktivní údaje o nás a předpovídáme velikost trička chlapa pomocí výšky a váhy.

Výška (cm) Hmotnost (kg) Velikost
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Nalezení podobností pomocí výpočtu vzdálenosti

Můžeme použít jak Manhattan, tak euklidovskou vzdálenost, protože data jsou nepřetržitá. Vypočítáme vzdálenost mezi novým vzorkem a tréninkovými datovými sadami a poté najdeme K-nejbližší.

Příklad: Řekněme, že „Raj“ má výšku 165 cm a váží 63 kg. Euklidovskou vzdálenost vypočítáme pomocí prvního pozorování s novým vzorkem: SQRT ((165-140) 2 + (63-58) 2)

3. Nalezení K-nejbližších sousedů

Předpokládejme, že K = 4, existují 4 zákazníci, z nichž 3 měli střední velikost a 1 velkou velikost. Nejlepší předpovědí je Raj střední velikosti.

Rozdíl mezi průměrem KNN a K

Rozdíl jsou následující:

  • KNN je dohlížený algoritmus (závislá proměnná), zatímco K-průměr je bezohledový algoritmus (žádná závislá proměnná).
  • K-průměr používá klastrovací techniku ​​k rozdělení datových bodů, které tvoří K-clustery.KNN používá K-nejbližší sousedy pro klasifikaci datových bodů a jejich kombinování.

Výhody a nevýhody KNN

Výhody jsou následující:

  • KNN algoritmus je univerzální, lze jej použít pro klasifikaci a regresní problémy.
  • Není třeba předchozího modelu k sestavení KNN algoritmu.
  • Snadná a snadná implementace.

Nevýhody jsou následující:

  • Algoritmus s rostoucím počtem vzorků (tj. Bez proměnných)

Doporučené články

Toto je průvodce algoritmem KNN v R. Zde diskutujeme funkce, příklady, pseudokód, kroky, které je třeba v algoritmu KNN dodržovat. Další informace naleznete také v dalších souvisejících článcích.

  1. Algoritmy pro vědu o datech
  2. Co je to genetický algoritmus?
  3. Algoritmy směrování
  4. Algoritmy neuronových sítí
  5. Algoritmus C ++ | Příklady algoritmu C ++

Kategorie: