Úvod do klastrových metod

Tento článek představuje přehled různých metod shlukování používaných v technikách dolování dat s různými principy. Clustering je skupina datových objektů uspořádaných do jiného logického seskupení. Seskupení podobných datových položek a přiřazení podobných datových položek do jednotlivých klastrů. Clustering se provádí ve velkých souborech dat pro učení bez dozoru. Během toho provádíme oddíl na sadě dat do skupin. Struktura shlukování je s podsady znázorněna následovně. C = c1, c2 … c n . Protože klastrovací skupiny mají podobné objekty, je třeba určit určitá opatření v klastrových metodách k určení míry vzdálenosti a podobnosti. Metody shlukování jsou založeny na pravděpodobnostních modelech. Dolování dat vyžaduje shlukování, aby bylo možné škálovat s vysokými databázemi, manipulovat s vícerozměrným prostorem, řešit chybná data a hluk.

Vysvětlete metody klastru?

Tato metoda shlukování pomáhá při seskupování cenných dat do shluků a poté vybírá vhodné výsledky založené na různých technikách. Například při vyhledávání informací jsou výsledky dotazu seskupeny do malých shluků a každý klastr má irelevantní výsledky. Podle skupinových technik jsou seskupeny do podobných kategorií a každá kategorie je rozdělena do podkategorií, aby pomohla při průzkumu výstupu dotazů. Existují různé typy klastrovacích metod

  • Hierarchické metody
  • Metody dělení
  • Hustota založená
  • Seskupování na základě modelu
  • Model založený na mřížce

Následuje přehled technik používaných při těžbě dat a umělé inteligenci.

1. Hierarchická metoda

Tato metoda vytvoří cluster rozdělením způsobem shora dolů nebo zdola nahoru. Oba tyto přístupy vytvářejí dendrogram, který mezi sebou vytváří propojení. Dendrogram je stromový formát, který udržuje sekvenci sloučených klastrů. Hierarchické metody jsou vytvářeny více oddíly s ohledem na úroveň podobnosti. Jsou rozděleny do aglomeračního hierarchického klastru a dělícího hierarchického klastru. Zde je strom clusterů vytvořen pomocí technik sloučení. Pro rozdělení procesu dělení se používá, sloučení používá aglomerativní. Aglomerační klastrování zahrnuje:

  1. Zpočátku berou všechny datové body a považují je za jednotlivé klastry začínají shora dolů. Tyto shluky jsou sloučeny, dokud nedosáhneme požadovaných výsledků.
  2. Další dva podobné klastry jsou seskupeny do jednoho velkého klastru.
  3. Znovu vypočítat vzdálenost v obrovském shluku a sloučit podobné shluky.
  4. Poslední krok zahrnuje sloučení všech vydaných klastrů v každém kroku za vytvoření finálního jediného klastru.

2. Metoda dělení:

Hlavním cílem oddílu je přemístění. Přemístí oddíly přesunutím z jednoho klastru do druhého, což vytvoří počáteční rozdělení. Rozděluje datové objekty typu „n“ do počtu skupin „k“. Tato částečná metoda je preferována více než hierarchický model v rozpoznávání vzorů. Pro splnění těchto technik jsou stanovena následující kritéria:

  • Každý cluster by měl mít jeden objekt.
  • Každý datový objekt patří do jednoho klastru.

Nejčastěji používanými dělícími technikami jsou Algoritmus střední hodnoty K. Rozdělují se na „K“ shluky představované centroidy. Každé centrum klastru se vypočítá jako průměr tohoto klastru a funkce R vizualizuje výsledek. Tento algoritmus má následující kroky:

  1. Náhodný výběr K objektů z datové sady a vytvoření počátečních center (centroidů)
  2. Další přiřazení euklidovské vzdálenosti mezi objekty a středním středem.
  3. Přiřazení střední hodnoty pro každý jednotlivý klastr.
  4. Kroky aktualizace Centroidu pro každý klastr „k“.

3. Model hustoty:

V tomto modelu jsou klastry definovány lokalizací oblastí s vyšší hustotou v klastru. Hlavním principem je soustředit se na dva parametry: maximální poloměr sousedství a minimální počet bodů. Model založený na hustotě identifikuje shluky různých tvarů a šumu. Funguje tak, že detekuje vzory odhadováním prostorového umístění a vzdálenosti od metody souseda, která se zde používá, je DBSCAN (prostorové seskupení založené na hustotě), které dává ruce velkým prostorovým databázím. Používání tří datových bodů pro seskupování, jmenovitě základních bodů, hraničních bodů a odlehlých hodnot. Primárním cílem je identifikace klastrů a jejich distribučních parametrů. Proces klastrování je zastaven s potřebou parametrů hustoty. Pro nalezení klastrů je důležité mít při výpočtu vzdálenosti jádra parametr Minimální vlastnosti na klastr. Tři různé nástroje poskytované tímto modelem jsou DBSCAN, HDBSCAN, Multi-scale.

4. Klastrování podle modelu

Tento model kombinuje dva nebo tři klastry z distribuce dat. Základní myšlenkou tohoto modelu je, že je nutné rozdělit data do dvou skupin na základě pravděpodobnostního modelu (vícerozměrné normální rozdělení). Zde je každá skupina přiřazena jako koncepce nebo třída. Každá komponenta je definována funkcí hustoty. Pro nalezení parametru v tomto modelu se pro sestavení distribuce směsi používá odhad maximální pravděpodobnosti. Každý klastr „K“ je modelován gaussovským rozdělením s dvouparametrovým µk středním vektorem a £ k kovariančním vektorem.

5. Model založený na mřížce

V tomto přístupu jsou objekty považovány za prostorově řízené rozdělením prostoru do konečného počtu buněk, aby vytvořily mřížku. S pomocí mřížky je technika shlukování použita pro rychlejší zpracování, které je obvykle závislé na buňkách, nikoli na objektech. Jedná se o tyto kroky:

  • Vytvoření struktury mřížky
  • Hustota buněk se počítá pro každou buňku
  • Použití třídicího mechanismu na jejich hustoty.
  • Prohledáním center klastrů a přechodů na sousedních buňkách opakujte proces.

Význam klastrových metod

  1. Metody klastrování pomáhají při restartování postupu lokálního vyhledávání a odstraňuje neefektivitu. Clustering pomáhá určit vnitřní strukturu dat.
  2. Tato shluková analýza byla použita pro modelovou analýzu, oblast přitažlivosti vektoru.
  3. Clustering pomáhá pochopit přirozené seskupení v datovém souboru. Jejich účelem je dávat smysl rozdělit data do nějaké skupiny logických seskupení.
  4. Kvalita shlukování závisí na metodách a na identifikaci skrytých vzorců.
  5. Hrají širokou roli v aplikacích, jako je marketingový ekonomický výzkum, weblogy k identifikaci vzorů v opatřeních podobnosti, zpracování obrazu, prostorový výzkum.
  6. Používají se při odhalování odlehlých detekcí podvodů s kreditními kartami.

Závěr

Clustering je považován za obecný úkol k vyřešení problému, který formuluje problém optimalizace. Hraje klíčový význam v oblasti dolování a analýzy dat. Viděli jsme různé metody shlukování, které rozdělují datový soubor, závisí na požadavcích. Většina výzkumu je založena na tradičních technikách, jako jsou K-prostředky a hierarchické modely. Klastrové oblasti se používají ve vysoce dimenzionálních státech, které tvoří budoucí rozsah výzkumných pracovníků.

Doporučený článek

Toto byl průvodce metodami klastru. Zde jsme diskutovali koncept, význam a techniky Clustering metod. Další informace naleznete také v dalších navrhovaných článcích -

  1. Co je ETL?
  2. Co je to Data Science
  3. Co je to Teradata?
  4. Top 6 alternativ AWS
  5. Shlukování ve strojovém učení
  6. Vícerozměrná regrese
  7. Hierarchické klastry Aglomerativní a dělící se shlukování

Kategorie: