Úvod do algoritmu Clustering Algorithm?

K-Means clustering patří do nepodřízeného algoritmu učení. Používá se, když data nejsou definována ve skupinách nebo kategoriích, tj. Neznačená data. Cílem tohoto klastrovacího algoritmu je hledat a najít skupiny v datech, kde proměnná K představuje počet skupin.

Pochopení algoritmu Clustering Algorithm

Tento algoritmus je iterační algoritmus, který rozděluje dataset podle jejich vlastností do K počtu předdefinovaných nepřekrývajících se různých klastrů nebo podskupin. Dělá datové body seskupení co nejpodobnější a také se snaží udržet seskupení pokud možno. Přiděluje datové body do klastru, pokud je součet druhé mocniny mezi centroidem klastru a datovými body na minimu, kde je centroid klastru aritmetickým průměrem datových bodů, které jsou v klastru. Menší odchylka v klastru vede k podobným nebo homogenním datovým bodům v klastru.

Jak funguje algoritmus K- znamená klastrovací algoritmus?

Algoritmus klastrů K znamená následující vstupy:

  • K = počet podskupin nebo klastrů
  • Ukázka nebo tréninková sada = (x 1, x 2, x 3, ……… x n )

Nyní předpokládejme, že máme datovou sadu, která je neznačená, a musíme ji rozdělit do klastrů.

Nyní musíme najít počet shluků. To lze provést dvěma způsoby:

  • Metoda lokte.
  • Účel metody.

Podívejme se na ně stručně:

Metoda lokte

V této metodě je nakreslena křivka mezi „uvnitř součtu čtverců“ (WSS) a počtem shluků. Zakřivená křivka připomíná lidskou ruku. Říká se tomu metoda loktů, protože bod lokte v křivce nám dává optimální počet shluků. V grafu nebo křivce se za bodem lokte hodnota WSS mění velmi pomalu, takže je třeba vzít v úvahu bod lokte, aby se dala konečná hodnota počtu shluků.

Účelem

V této metodě jsou data rozdělena na základě různých metrik a poté je posouzeno, jak dobře se v tomto případě podařilo. Například uspořádání košil v oddělení pánského oblečení v obchoďáku se provádí podle kritérií velikosti. To lze provést na základě ceny a také značky. Nejvhodnější by byl vybrán tak, aby poskytoval optimální počet shluků, tj. Hodnotu K.

Nyní se můžeme vrátit k našim výše uvedeným datovým souborům. Pomocí výše uvedené metody můžeme vypočítat počet shluků, tj. Hodnotu K.

Jak používat výše uvedené metody?

Nyní se podívejme na proces provedení:

Krok 1: Inicializace

Nejprve inicializujte libovolné náhodné body nazývané centroidy klastru. Při inicializaci musíte dbát na to, aby těžiště klastru muselo být menší než počet tréninkových datových bodů. Tento algoritmus je iterační algoritmus, a proto se následující dva kroky provádějí iterativně.

Krok 2: Přiřazení klastru

Po inicializaci se projdou všechny datové body a vypočte se vzdálenost mezi všemi centroidy a datovými body. Nyní by se shluky tvořily v závislosti na minimální vzdálenosti od těžiště. V tomto příkladu jsou data rozdělena do dvou skupin.

Krok 3: Přesun Centroid

Protože klastry vytvořené ve výše uvedeném kroku nejsou optimalizovány, je třeba vytvořit optimalizované klastry. K tomu je třeba přesunout centroidy iterativně na nové místo. Vezměte datové body jednoho klastru, spočítejte jejich průměr a poté přemístěte těžiště tohoto klastru do tohoto nového umístění. Opakujte stejný krok pro všechny ostatní klastry.

Krok 4: Optimalizace

Výše uvedené dva kroky se provádějí iterativně, dokud se těžiště přestanou pohybovat, tj. Již nezmění své pozice a nestanou se statickými. Jakmile je to hotovo, algoritmus k- se nazývá konvergovaný.

Krok 5: Konvergence

Nyní se tento algoritmus sblížil a vytvořily se jasně viditelné klastry. Tento algoritmus může poskytnout různé výsledky v závislosti na tom, jak byly klastry inicializovány v prvním kroku.

Aplikace algoritmu Cl-Clustering Algorithm

  • Segmentace trhu
  • Seskupování dokumentů
  • Segmentace obrazu
  • Komprese obrazu
  • Kvantifikace vektorů
  • Shluková analýza
  • Funkce učení nebo slovník slovníku
  • Identifikace oblastí náchylných k trestné činnosti
  • Detekce pojistných podvodů
  • Analýza dat veřejné dopravy
  • Klastrování IT aktiv
  • Segmentace zákazníků
  • Identifikace rakovinových dat
  • Používá se ve vyhledávačích
  • Předpověď drogové aktivity

Výhody K- znamená Clustering Algorithm

  • Je to rychlé
  • Robustní
  • Snadno pochopitelné
  • Poměrně efektivní
  • Jsou-li datové sady odlišné, dává nejlepší výsledky
  • Vytvářejte pevnější klastry
  • Když jsou přičteny centroidy, změní se cluster.
  • Flexibilní
  • Snadno interpretovat
  • Lepší výpočetní náklady
  • Zvyšuje přesnost
  • S kulovými klastry funguje lépe

Nevýhody K- znamená Clustering Algorithm

  • Vyžaduje předchozí specifikaci počtu klastrových center
  • Pokud existují dvě vysoce se překrývající data, nelze je rozlišit a nelze říci, že existují dva klastry
  • S různým zastoupením údajů jsou také různé výsledky
  • Euklidovská vzdálenost může faktory nerovnoměrně zvážit
  • Poskytuje lokální optima funkce kvadratické chyby
  • Někdy náhodný výběr centroidů nemůže přinést plodné výsledky
  • Lze použít, pouze pokud je definován význam
  • Nelze zpracovat odlehlé hodnoty a hlučná data
  • Nepracujte pro nelineární datovou sadu
  • Nedostatek konzistence
  • Citlivé na měřítko
  • Pokud dojde k velmi velkým množinám dat, může dojít k selhání počítače.
  • Problémy s predikcí

Doporučené články

Byl to průvodce klastrovým algoritmem K-Means. Zde jsme diskutovali o práci, aplikacích, výhodách a nevýhodách shlukového algoritmu K-Means. Další informace naleznete také v dalších navrhovaných článcích -

  1. Co je to neuronové sítě?
  2. Co je dolování dat? | Role těžby dat
  3. Interview Otázka dolování dat
  4. Strojové učení vs neuronová síť
  5. Shlukování ve strojovém učení

Kategorie: