Přehled typů klastrů

Předtím, než se naučíme klastrování, pochopíme, co je klastrování a proč je právě teď v průmyslu strojového učení tak důležité.

Co je Clustering? Clustering je proces, kde algoritmus dělí datové body do určitého počtu skupin na základě principu, že podobné datové body zůstávají blízko sebe a spadají do stejné skupiny.

Proč je to tak důležité teď? Chápeme, že například příkladem je internetový obchod s oblečením a chtějí lépe porozumět svým zákazníkům, aby mohli zefektivnit svou reklamní strategii. Není možné, aby měli pro každého zákazníka jedinečnou strategii, namísto toho rozdělují zákazníky do určitého počtu skupin (na základě jejich předchozích nákupů) a mají samostatnou strategii samostatných skupin. Díky tomu je podnikání efektivnější, to je důvod, proč je v současné době v tomto odvětví důležité sdružování.

Druhy klastrů

Obecně metody shlukování techniky jsou rozděleny do dvou typů, které jsou tvrdé metody a měkké metody. V metodě Hard clustering patří každý datový bod nebo pozorování pouze do jednoho clusteru. V metodě měkkého shlukování nebude každý datový bod zcela patřit do jednoho klastru, místo toho může být členem více než jednoho klastru, má sadu koeficientů členění odpovídající pravděpodobnosti, že bude v daném klastru.

V současné době se používají různé typy klastrovacích metod. V tomto článku se podívejme na některé z důležitých metod, jako je hierarchické klastrování, klastrování podle oddílů, fuzzy klastrování, klastrování na základě hustoty a klastrování na základě distribučního modelu. Nyní pojďme diskutovat o každém z nich na příkladu:

1. Rozdělení oddílů

Rozdělení oddílů je typ klastrovací techniky, která rozděluje sadu dat do množiny skupin. (Například hodnota K v KNN a bude rozhodnuto dříve, než začneme model trénovat). Lze ji také nazvat metodou založenou na centroidech. V tomto přístupu je centrum clusteru (centroid) vytvořeno tak, že vzdálenost datových bodů v tomto clusteru je minimální, pokud se počítá s jinými centroidy clusteru. Nejoblíbenějším příkladem tohoto algoritmu je KNN algoritmus. Takto vypadá algoritmus rozdělení clusterů

2. Hierarchické shlukování

Hierarchické klastrování je typ techniky shlukování, která rozděluje danou sadu dat do několika shluků, kde uživatel neurčí počet shluků, které mají být vygenerovány před zaškolením modelu. Tento typ klastrovací techniky je známý také jako metody založené na připojení. V této metodě nebude provedeno jednoduché rozdělení datové sady, zatímco to nám poskytuje hierarchii klastrů, které se po určité vzdálenosti spojí. Po provedení hierarchického shlukování na datovém souboru bude výsledkem stromová reprezentace datových bodů (Dendogram), které jsou rozděleny do klastrů. Takto vypadá hierarchické seskupování po ukončení školení

Zdrojový odkaz: Hierarchical Clustering

V rozdělení clusterů a hierarchickém klastrování je jeden hlavní rozdíl, který si můžeme všimnout, v rozdělení clusterů, budeme předběžně specifikovat hodnotu, v jakém počtu klastrů chceme datovou skupinu rozdělit, a tuto hodnotu v hierarchickém klastrování neurčíme .

3. Hustotní klastrování

V tomto shlukování budou klastry techniky tvořeny segregací různých oblastí hustoty na základě různých hustot v datovém grafu. Nejpoužívanější algoritmus v tomto typu techniky je prostorové klastrování a aplikace založené na hustotě (DBSCAN). Hlavní myšlenkou tohoto algoritmu je, že by měl existovat minimální počet bodů, které obsahují v sousedství daného poloměru pro každý bod v klastru. Dosud ve výše diskutovaných technikách shlukování, pokud pozorujete pozorně, můžeme pozorovat jednu společnou věc ve všech technikách, které mají tvar vytvořených shluků, jsou buď sférické, oválné nebo konkávní. DBSCAN může vytvářet klastry v různých tvarech, tento typ algoritmu je nejvhodnější, když datová sada obsahuje šum nebo odlehlé hodnoty. Takto vypadá algoritmus prostorového seskupování založený na hustotě po dokončení školení.

Zdrojový odkaz: Clustering-Based Clustering

4. Klastr založený na distribučním modelu

V tomto typu shlukování jsou klastry techniky vytvářeny identifikací pravděpodobností, že všechny datové body v klastru pocházejí ze stejného rozdělení (normální, gaussovské). Nejoblíbenějším algoritmem v tomto typu techniky je shlukování očekávání-maximalizace (EM) pomocí Gaussian Mixture Models (GMM).

Normální techniky klastrování, jako je hierarchické klastrování a klastrování podle oddílů, nejsou založeny na formálních modelech, KNN v rozdělení klastrování poskytuje různé výsledky s různými hodnotami K. Protože KNN a KMN považují za střed pro klastrové centrum střední hodnotu, není v některých případech nejvhodnější u Gaussových směšovacích modelů předpokládáme, že datové body jsou Gaussovské distribuované, takže máme dva parametry pro popis tvaru střední hodnoty klastrů a standardní odchylky. Tímto způsobem je pro každý klastr přiřazeno Gaussovo rozdělení, pro získání optimálních hodnot těchto parametrů (střední a standardní odchylka) se používá optimalizační algoritmus zvaný Očekávání maximalizace. Takto vypadá EM - GMM po tréninku.

Odkaz na zdroj: Clustering založený na distribučním modelu

5. Fuzzy Clustering

Patří do odvětví technik měkkých metod klastrování, zatímco všechny výše uvedené techniky klastrování patří k technikám klastrových metod tvrdých metod. V tomto typu techniky shlukování směřuje blízko ke středu, možná část druhého shluku ve vyšší míře než body na okraji stejného shluku. Pravděpodobnost bodu patřícího k danému klastru je hodnota, která leží mezi 0 a 1. Nejoblíbenějším algoritmem v tomto typu techniky je FCM (Fuzzy C-Algorithm). Zde se centroid klastru vypočítává jako průměr všech bodů vážených pravděpodobností, že patří do klastru.

Závěr - typy shlukování

Toto jsou některé z různých technik klastrování, které se v současné době používají, a v tomto článku jsme se zabývali jedním populárním algoritmem v každé technice klastrování. Musíme si vybrat typ technologie, kterou používáme, na základě našeho datového souboru a požadavků, které musíme splnit.

Doporučené články

Toto byl průvodce typy klastrů. Zde diskutujeme různé typy shlukování s jejich příklady. Další informace naleznete také v následujících článcích -

  1. Hierarchický klastrovací algoritmus
  2. Shlukování ve strojovém učení
  3. Druhy algoritmů strojového učení
  4. Typy technik analýzy dat
  5. Jak používat a odebrat hierarchii v Tableau?
  6. Kompletní průvodce typy analýzy dat

Kategorie: