K- Znamená Clustering Algorithm - Jak to funguje - Analýza a implementace

Úvod do algoritmu Clustering Algorithm?

K-Means clustering patří do nepodřízeného algoritmu učení. Používá se, když data nejsou definována ve skupinách nebo kategoriích, tj. Neznačená data. Cílem tohoto klastrovacího algoritmu je hledat a najít skupiny v datech, kde proměnná K představuje počet skupin.

Pochopení algoritmu Clustering Algorithm

Tento algoritmus je iterační algoritmus, který rozděluje dataset podle jejich vlastností do K počtu předdefinovaných nepřekrývajících se různých klastrů nebo podskupin. Dělá datové body seskupení co nejpodobnější a také se snaží udržet seskupení pokud možno. Přiděluje datové body do klastru, pokud je součet druhé mocniny mezi centroidem klastru a datovými body na minimu, kde je centroid klastru aritmetickým průměrem datových bodů, které jsou v klastru. Menší odchylka v klastru vede k podobným nebo homogenním datovým bodům v klastru.

Jak funguje algoritmus K- znamená klastrovací algoritmus?

Algoritmus klastrů K znamená následující vstupy:

K = počet podskupin nebo klastrů
Ukázka nebo tréninková sada = (x ₁, x ₂, x ₃, ……… x _n )

Nyní předpokládejme, že máme datovou sadu, která je neznačená, a musíme ji rozdělit do klastrů.

Nyní musíme najít počet shluků. To lze provést dvěma způsoby:

Metoda lokte.
Účel metody.

Podívejme se na ně stručně:

Metoda lokte

V této metodě je nakreslena křivka mezi „uvnitř součtu čtverců“ (WSS) a počtem shluků. Zakřivená křivka připomíná lidskou ruku. Říká se tomu metoda loktů, protože bod lokte v křivce nám dává optimální počet shluků. V grafu nebo křivce se za bodem lokte hodnota WSS mění velmi pomalu, takže je třeba vzít v úvahu bod lokte, aby se dala konečná hodnota počtu shluků.

Účelem

V této metodě jsou data rozdělena na základě různých metrik a poté je posouzeno, jak dobře se v tomto případě podařilo. Například uspořádání košil v oddělení pánského oblečení v obchoďáku se provádí podle kritérií velikosti. To lze provést na základě ceny a také značky. Nejvhodnější by byl vybrán tak, aby poskytoval optimální počet shluků, tj. Hodnotu K.

Nyní se můžeme vrátit k našim výše uvedeným datovým souborům. Pomocí výše uvedené metody můžeme vypočítat počet shluků, tj. Hodnotu K.

Jak používat výše uvedené metody?

Nyní se podívejme na proces provedení:

Krok 1: Inicializace

Nejprve inicializujte libovolné náhodné body nazývané centroidy klastru. Při inicializaci musíte dbát na to, aby těžiště klastru muselo být menší než počet tréninkových datových bodů. Tento algoritmus je iterační algoritmus, a proto se následující dva kroky provádějí iterativně.

Krok 2: Přiřazení klastru

Po inicializaci se projdou všechny datové body a vypočte se vzdálenost mezi všemi centroidy a datovými body. Nyní by se shluky tvořily v závislosti na minimální vzdálenosti od těžiště. V tomto příkladu jsou data rozdělena do dvou skupin.

Krok 3: Přesun Centroid

Protože klastry vytvořené ve výše uvedeném kroku nejsou optimalizovány, je třeba vytvořit optimalizované klastry. K tomu je třeba přesunout centroidy iterativně na nové místo. Vezměte datové body jednoho klastru, spočítejte jejich průměr a poté přemístěte těžiště tohoto klastru do tohoto nového umístění. Opakujte stejný krok pro všechny ostatní klastry.

Krok 4: Optimalizace

Výše uvedené dva kroky se provádějí iterativně, dokud se těžiště přestanou pohybovat, tj. Již nezmění své pozice a nestanou se statickými. Jakmile je to hotovo, algoritmus k- se nazývá konvergovaný.

Krok 5: Konvergence

Nyní se tento algoritmus sblížil a vytvořily se jasně viditelné klastry. Tento algoritmus může poskytnout různé výsledky v závislosti na tom, jak byly klastry inicializovány v prvním kroku.

Aplikace algoritmu Cl-Clustering Algorithm

Segmentace trhu
Seskupování dokumentů
Segmentace obrazu
Komprese obrazu
Kvantifikace vektorů
Shluková analýza
Funkce učení nebo slovník slovníku
Identifikace oblastí náchylných k trestné činnosti
Detekce pojistných podvodů
Analýza dat veřejné dopravy
Klastrování IT aktiv
Segmentace zákazníků
Identifikace rakovinových dat
Používá se ve vyhledávačích
Předpověď drogové aktivity

Výhody K- znamená Clustering Algorithm

Je to rychlé
Robustní
Snadno pochopitelné
Poměrně efektivní
Jsou-li datové sady odlišné, dává nejlepší výsledky
Vytvářejte pevnější klastry
Když jsou přičteny centroidy, změní se cluster.
Flexibilní
Snadno interpretovat
Lepší výpočetní náklady
Zvyšuje přesnost
S kulovými klastry funguje lépe

Nevýhody K- znamená Clustering Algorithm

Vyžaduje předchozí specifikaci počtu klastrových center
Pokud existují dvě vysoce se překrývající data, nelze je rozlišit a nelze říci, že existují dva klastry
S různým zastoupením údajů jsou také různé výsledky
Euklidovská vzdálenost může faktory nerovnoměrně zvážit
Poskytuje lokální optima funkce kvadratické chyby
Někdy náhodný výběr centroidů nemůže přinést plodné výsledky
Lze použít, pouze pokud je definován význam
Nelze zpracovat odlehlé hodnoty a hlučná data
Nepracujte pro nelineární datovou sadu
Nedostatek konzistence
Citlivé na měřítko
Pokud dojde k velmi velkým množinám dat, může dojít k selhání počítače.
Problémy s predikcí

Doporučené články

Byl to průvodce klastrovým algoritmem K-Means. Zde jsme diskutovali o práci, aplikacích, výhodách a nevýhodách shlukového algoritmu K-Means. Další informace naleznete také v dalších navrhovaných článcích -

Co je to neuronové sítě?
Co je dolování dat? | Role těžby dat
Interview Otázka dolování dat
Strojové učení vs neuronová síť
Shlukování ve strojovém učení

K- Znamená Clustering Algorithm - Jak to funguje - Analýza a implementace

Obsah:

Úvod do algoritmu Clustering Algorithm?

Pochopení algoritmu Clustering Algorithm

Jak funguje algoritmus K- znamená klastrovací algoritmus?

Metoda lokte

Účelem

Jak používat výše uvedené metody?

Krok 1: Inicializace

Krok 2: Přiřazení klastru

Krok 3: Přesun Centroid

Krok 4: Optimalizace

Krok 5: Konvergence

Aplikace algoritmu Cl-Clustering Algorithm

Výhody K- znamená Clustering Algorithm

Nevýhody K- znamená Clustering Algorithm

Doporučené články

Co je to Juypter Notebook? - Kompletní průvodce Juypter Notebook

Co je Kanban? - Klíčový koncept Jak to funguje - Proces a přínos

Co je to Kubernetes? - Průvodce výhodami a výhodami Kubernetes

Co je Kotlin? - Klíčový koncept Práce a výhody Rozsah a kariéra

Co je JMeter? - Jak to funguje - Funkce a kariéra - Výhody Jmeter

Co je Agilní Sprint? - Práce a oblast působnosti Dovednosti a výhody

Co je Úl? - Jak to funguje - Výhody - Dovednosti a kariérní růst

Co je agilní projektový management? - Pracovní - Výhody a rozsah

Co je Agilní trenér? - Vlastnosti a vlastnosti agilního trenéra

Co je Adobe Muse? Různé nástroje Adobe Muse

Scrum Project Management - Funkce a fáze Scrumu

Scrum Process - Naučte se různý proces a klíčovou roli modelu Scrum

Posuvník v Excelu Jak vložit posuvník v Excelu a jak jej používat?

Principy Scrumu Naučte se důležité principy a hodnoty Scrum Agile

Sankey Chart v Tableau - Jak oslavovat Sankey Chart v Tableau?