Úvod do klastru ve strojovém učení

Nejprve pochopíme strojové učení. Vidíme, že kolem nás data rychle rostou. Data přicházejí v různých formách, jako je video, audio, obrázky atd. Clustering in Machine learning používá tato data k zodpovězení otázky. Například (zjišťování kožních onemocnění) lékař použije strojové učení k pochopení značky na kůži a předpovídá, o jaký druh onemocnění jde. Clustering není nic jiného než seskupování neoznačených datových sad. Vezměme si příklad vašeho filmu (který chcete sledovat). Mohli byste mít rádi romantické filmy, ale vaše sestra má rád komediální filmy. Mohli byste mít rádi Bollywoodské romantické filmy nebo hollywoodské romantické filmy. Ale vaše sestra má rád komediální filmy Telegu, tady vás vidíme a vaše sestra má jiný výběr filmů. Oba jste objevili hloubkové informace o filmech. Zde jsme seskupili neoznačený soubor dat (filmy), abychom mohli film sledovat.

Jak funguje Clustering ve strojovém učení?

V klastru seskupujeme neoznačené datové sady, které se nazývají učení bez dozoru. Když jsme poprvé seskupili neoznačená data, musíme najít podobnou skupinu. Když vytváříme skupinu, musíme pochopit vlastnosti datových sad, tj. Podobné věci. Pokud vytvoříme skupinu pomocí jedné nebo dvou funkcí, je snadné změřit podobnost.

  • Příklad č. 1: Filmy režiséra. Po dokončení klastrování je každému klastru přiřazeno číslo klastru známé jako ClusterID. Systém strojového učení, jako je YouTube, používá clusterID pro snadnější reprezentaci komplexních dat.
  • Příklad č. 2: YouTube používá naši historii vyhledávání nebo sledovanou historii a navrhuje videa, která by se nám mohla líbit. Datová sada funkcí pro Facebook obsahuje lidi, které sledujeme, stránky, které sledujeme, komentáře, které vkládáme, fotografie nebo videa, které se nám líbí, obrázky nebo fotografie, na kterých jsme označeni. Klastrování videa nebo fotografie na Facebooku nahradí sadu funkcí jediným clusterem ID kvůli kompresi dat.

Top 4 metody klastru ve strojovém učení

Níže jsou uvedeny metody klastrování ve strojovém učení:

1. Hierarchické

Klastrování jmen definuje způsob práce, tato metoda tvoří klastr hierarchickým způsobem. Nový cluster je vytvořen pomocí dříve vytvořené struktury. Musíme pochopit rozdíly mezi přístupem Divisive versus Agglomerative. Aglomerát je přístup zdola nahoru, začíná jednotlivými body v klastru a kombinuje některé svévolné. Divisive začíná jedním klastrem, všechny body v klastru a dělí je do několika shluků.

2. Na základě hustoty

V této metodě je hustá oblast považována za shluk, který má určité podobnosti. To se liší od dolní husté oblasti prostoru objektů. DBSCAN je znám jako prostorové sdružování aplikací založené na hustotě s šumem. Pro orientaci datových objektů DBSCAN hledá nějaký epsilon, který jsme nastavili na nějaký epsilon poloměru a minimální počet bodů. Pokud v okruhu překročíme určitý minimální počet bodů, zařadíme vysokou hustotu shluku. Takto můžeme uvažovat data s oblastí s vysokou hustotou. DBSCAN se liší od metody centroidů shlukování, protože se nejedná o přísný přístup. Hlukové body jsou body v oblastech s nízkou hustotou, které jsou ponechány neznačené nebo označené jako odlehlé hodnoty. To je důvod, proč nevyžadujeme konkrétní K. Můžeme určit minimální body pro region s vysokou hustotou a poloměr, který chceme, aby region byl nebo shluky byly.

3. Rozdělení

Když máme dataset N počtu objektů. Tato metoda vytváří „K“ jako oddíl dat. Tento oddíl je klastr, tj. Konstrukt K, oddíl (K <= N).

Požadavky, které musí být splněny:

  • Každá skupina nebo datový soubor musí obsahovat alespoň jeden objekt.
  • Každý objekt by měl patřit pouze do jedné skupiny.

Jedním z příkladů rozdělení je K-klastrování.

4. Grid-based

Prostor objektu, konečný počet buněk tvoří mřížkovou strukturu. Tato metoda poskytuje rychlé zpracování clusteru. Jsou nezávislé na prostoru objektů.

Aplikace klastrů ve strojovém učení

Níže jsou uvedeny aplikace Clusteringu ve strojovém učení:

1. Lékařské

Lékař může použít shlukový algoritmus k nalezení detekce nemoci. Vezměme si příklad onemocnění štítné žlázy. Datový soubor onemocnění štítné žlázy lze identifikovat pomocí klastrovacího algoritmu, když aplikujeme učení bez dozoru na datovém souboru, který obsahuje datový soubor štítné žlázy a non-štítné žlázy. Shlukování identifikuje příčinu onemocnění a umožní úspěšné vyhledávání výsledků.

2. Sociální síť

Jsme generace internetové éry, můžeme potkat jakoukoli osobu nebo se dozvědět o jakékoli individuální identitě prostřednictvím internetu. Webové stránky sociálních sítí používají k porozumění obsahu, lidem, kterým lidé čelí nebo kde se nachází, klastrování. Pokud se v sociálních sítích používá učení bez dozoru, je to užitečné pro překlad jazyka. Například Instagram a Facebook poskytují funkci překladu jazyka.

3. Marketing

Vidíme nebo pozorujeme, že vedle nás rostou různé technologie a že lidé přitahují tyto technologie, jako je cloud, digitální marketing. Každá společnost vyvíjí snadno použitelné funkce a technologie, aby přilákala větší počet zákazníků. Abychom pochopili zákazníka, můžeme použít klastrování. Clustering pomůže společnosti porozumět segmentu uživatelů a poté kategorizovat každého zákazníka. Tímto způsobem můžeme zákazníkovi porozumět a najít podobnosti mezi zákazníky a seskupit je.

4. Bankovnictví

Všimli jsme si, že se kolem nás děje podvod a společnost varuje zákazníky. S pomocí sdružování mohou pojišťovny najít podvod, informovat o něm zákazníky a pochopit zásady, které zákazník přináší.

5. Google

Google je jedním z vyhledávačů, které lidé používají. Vezměme si příklad, když budeme hledat nějaké informace, jako je obchod s domácími mazlíčky v této oblasti, Google nám poskytne různé možnosti. Toto je výsledek shlukování, shlukování podobného výsledku, který je vám poskytnut.

Závěr

Dozvěděli jsme se o klastrování a strojovém učení. Způsob shlukování funguje ve strojovém učení. Informace o učení bez dozoru. Využití učení bez dozoru v reálném čase. Metody shlukování a jak každá metoda funguje ve strojovém učení.

Doporučený článek

Toto je průvodce klastrováním ve strojovém učení. Zde diskutujeme o top 4 metodách shlukování ve strojovém učení spolu s aplikacemi. Další informace naleznete také v dalších navrhovaných článcích -
  1. Rámce strojového učení Top 10
  2. K- Znamená Clustering Algorithm s výhodami
  3. Úvod do strojového učení
  4. Modely strojového učení | Top 5 typů
  5. Strojové učení C ++ knihovna

Kategorie: