Představujeme nejlepší srovnání analýzy faktorů v / s klastru

Obsah:

Anonim

Co je klastrová analýza

Clusterová analýza seskupuje data na základě charakteristik, které mají. Clusterová analýza seskupuje objekty na základě faktorů, které je činí podobnými. Shluková analýza se jinak nazývá segmentační analýza nebo analýza taxonomie. Shluková analýza nerozlišuje závislé a nezávislé proměnné. Shluková analýza se používá v celé řadě oblastí, jako je psychologie, biologie, statistika, dolování dat, rozpoznávání vzorů a další sociální vědy.

Cíl klastrové analýzy

Hlavním cílem klastrové analýzy je řešit heterogenitu v každé sadě dat. Dalšími cíli klastrové analýzy jsou

  • Popis taxonomie - Identifikace skupin v datech
  • Zjednodušení dat - Schopnost analyzovat skupiny podobných pozorování místo všech individuálních pozorování
  • Generování nebo testování hypotéz - Vytvořte hypotézu na základě povahy dat nebo otestujte dříve stanovenou hypotézu
  • Identifikace vztahů - zjednodušená struktura ze shlukové analýzy, která popisuje vztahy

Existují dva hlavní účely klastrové analýzy - Porozumění a Utility.

V případě porozumění seskupená analýza seskupuje objekty, které sdílejí některé společné vlastnosti

V rámci nástroje Utility poskytuje clusterová analýza vlastnosti každého datového objektu klastrům, k nimž patří.

Clusterová analýza jde ruku v ruce s faktorovou analýzou a diskriminační analýzou.

Než začnete, měli byste si položit několik otázek klastrové analýzy

  • Jaké proměnné jsou relevantní?
  • Je velikost vzorku dostatečná?
  • Lze detekovat odlehlé hodnoty a měly by být odstraněny?
  • Jak by se měla měřit podobnost objektu?
  • Měla by být data standardizovaná?

Druhy klastrů

Existují tři hlavní typy shlukování

  • Hierarchické klastrování - které obsahuje aglomerativní a dělící metodu
  • Částečné klastrování - obsahuje K-prostředky, Fuzzy K-prostředky, Isodata pod ním
  • Clustering založený na hustotě - má pod ním Denclust, CLUPOT, střední posun, SVC, Parzen-Watershed

Předpoklady v klastrové analýze

V klastrové analýze jsou vždy dva předpoklady

  • Předpokládá se, že vzorek je zástupcem populace
  • Předpokládá se, že proměnné nesouvisejí. I když jsou korelované proměnné, odeberte korelované proměnné nebo použijte měření vzdálenosti, která koreluje korelaci.

Kroky v klastrové analýze

    • Krok 1: Definujte problém
    • Krok 2: Vyberte vhodné opatření podobnosti
    • Krok 3: Rozhodněte se, jak seskupit objekty
    • Krok 4: Rozhodněte se o počtu klastrů
    • Krok 5: Interpretujte, popište a ověřte klastr

Clusterová analýza v SPSS

V SPSS najdete možnost analýzy klastrů ve volbě Analyzovat / Klasifikovat. V SPSS existují tři metody pro klastrovou analýzu - K-Means Cluster, Hierarchical Cluster a Two Step Cluster.

Metoda clusteru K-Means klasifikuje danou sadu dat prostřednictvím pevného počtu klastrů. Tato metoda je snadno srozumitelná a poskytuje nejlepší výstup, když jsou data od sebe dobře oddělena.

Dvoufázová clusterová analýza je nástroj navržený pro zpracování velkých datových sad. Vytváří shluky jak kategorických, tak kontinuálních proměnných.

Hierarchický klastr je nejčastěji používanou metodou klastrové analýzy. Spojuje případy do homogenních shluků tím, že je spojuje prostřednictvím řady postupných kroků.

Hierarchická shluková analýza obsahuje tři kroky

  • Vypočítejte vzdálenost
  • Propojte klastry
  • Výběr řešení výběrem správného počtu klastrů

Níže jsou uvedeny kroky pro provedení analýzy hierarchického klastru v SPSS.

  • Prvním krokem je výběr proměnných, které mají být seskupeny. Vysvětluje vám to níže uvedené dialogové okno
  • Kliknutím na možnost statistiky ve výše uvedeném dialogovém okně získáte dialogové okno, ve kterém chcete určit výstup
  • V grafu dialogového okna přidejte Dendrogram. Dendrogram je grafické znázornění metody hierarchické klastrové analýzy. Ukazuje, jak jsou klastry kombinovány v každém kroku, dokud nevytvoří jediný klastr.
  • Metoda dialogového okna je zásadní. Zde můžete uvést metodu vzdálenosti a shlukování. V SPSS existují tři míry pro interval, počet a binární data.
  • Čtvercová euklidovská vzdálenost je součtem čtvercových rozdílů, aniž by byla brána druhá odmocnina.
  • V počtech si můžete vybrat mezi mírou Chi a Phi Square
  • V sekci Binární máte mnoho možností na výběr. Nejvhodnější možností je použít euklidovskou vzdálenost na druhou.
  • Dalším krokem je výběr metody clusteru. Vždy se doporučuje používat Single Linkage nebo Nearest Neighbor, protože to snadno pomáhá identifikovat odlehlé hodnoty. Po identifikaci odlehlých hodnot můžete použít Wardovu metodu.
  • Posledním krokem je standardizace

Kritika klastrové analýzy

Nejběžnější kritiky jsou uvedeny níže

  • Je popisný, teoretický a neferenciální.
  • Vytvoří shluky bez ohledu na skutečnou existenci jakékoli struktury
  • Nelze jej široce použít, protože zcela závisí na proměnných použitých jako základ pro měření podobnosti

Co je analýza faktorů?

Faktorová analýza je explorativní analýza, která pomáhá při seskupování podobných proměnných do dimenzí. Může být použit ke zjednodušení dat snížením rozměrů pozorování. Faktorová analýza má několik různých metod rotace.

Faktorová analýza se používá hlavně pro účely redukce dat.

Existují dva typy faktorové analýzy - průzkumné a potvrzující

  • Průzkumná metoda se používá, pokud nemáte předem definovanou představu o strukturách nebo dimenzích v sadě proměnných.
  • Potvrzující metoda se používá, pokud chcete otestovat konkrétní hypotézu o strukturách nebo rozměrech v sadě proměnných.

Cíle analýzy faktorů

Existují dva hlavní cíle analýzy faktorů, které jsou uvedeny níže

  • Identifikace základních faktorů - Patří sem shlukování proměnných do homogenních sad, vytváření nových proměnných a pomoc při získávání znalostí o kategoriích
  • Screening proměnných - Je užitečné při regresi a identifikuje seskupení, aby vám umožnil vybrat jednu proměnnou, která představuje mnoho.

Předpoklady Analýza faktorů

Existují čtyři hlavní předpoklady analýzy faktorů, které jsou uvedeny níže

  • Modely jsou obvykle založeny na lineárních vztazích
  • Předpokládá se, že shromážděná data jsou odstupňována
  • Žádoucí je multikoloinearita v datech, protože cílem je zjistit vzájemně propojenou sadu proměnných
  • Data by měla být otevřená a reagující na analýzu faktorů. Nemělo by to být takovým způsobem, aby proměnná korelovala pouze sama se sebou a žádná korelace neexistuje s žádnou jinou proměnnou. Na těchto datech nelze provést analýzu faktorů.

Typy faktoringu

  • Hlavní faktoring faktorů - nejčastěji používaná metoda, kdy se váhy faktorů počítají tak, aby se extrahovala maximální možná rozptyl, a pokračuje, dokud nezůstane žádný smysluplný rozptyl.
  • Kanonická faktorová analýza - najde faktory, které mají nejvyšší kanonickou korelaci s pozorovanými proměnnými
  • Analýza společných faktorů - vyhledává nejmenší počet faktorů, které mohou odpovídat za běžnou varianci sady proměnných
  • Image factoring - Na základě korelační matice, kde je každá proměnná predikována od ostatních pomocí vícenásobné regrese
  • Alpha Factoring - maximalizuje spolehlivost faktorů
  • Faktorový regresní model - Kombinace faktorového modelu a regresního modelu, jehož faktory jsou částečně známy

Kritéria analýzy faktorů

  1. Vlastní kritéria

  • Představuje míru rozptylu v původních proměnných, která je spojena s faktorem
  • Součet druhé mocniny zatížení faktorů každé proměnné na faktoru představuje vlastní hodnotu
  • Jsou udržovány faktory s vlastními hodnotami vyššími než 1, 0
  1. Kritéria spiknutí

  • Graf vlastních čísel proti počtu faktorů v pořadí extrakce.
  • Tvar grafu určuje počet faktorů
  1. Procentuální hodnota variačních kritérií

  • Počet extrahovaných faktorů se zjistí tak, že rostoucí procento rozptylu extrahovaného faktory dosáhne úrovně spokojenosti.
  1. Kritéria testu významnosti

  • Statistická důležitost samostatných vlastních čísel se zjistí a zůstanou zachovány pouze ty faktory, které jsou statisticky významné

Faktorová analýza se používá v různých oborech, jako je psychologie, sociologie, politologie, vzdělávání a duševní zdraví.

Faktorová analýza v SPSS

V SPSS lze volbu faktorové analýzy nalézt v části Analyzovat redukci rozměrů à faktor

  • Začněte přidáním proměnných do sekce Seznam proměnných
  • Klikněte na kartu Popis a přidejte několik statistik, podle kterých jsou ověřeny předpoklady faktorové analýzy.
  • Klikněte na možnost Extrakce, která vám umožní zvolit metodu extrakce a mezní hodnotu pro extrakci
  • Principal Components (PCA) je výchozí metoda extrakce, která extrahuje i nekorelované lineární kombinace proměnných. PCA lze použít, když je korelační matice singulární. Je velmi podobný Canonical Correlation Analysis, kde první faktor má maximální rozptyl a následující faktory vysvětlují menší část rozptylu.
  • Druhou nejobecnější analýzou je faktoring hlavních os. Identifikuje latentní konstrukty za pozorováním.
  • Dalším krokem je výběr metody rotace. Nejčastěji používanou metodou je Varimax. Tato metoda zjednodušuje interpretaci faktorů.
  • Druhou metodou je Quartimax. Tato metoda otáčí faktory, aby se minimalizoval počet faktorů. Zjednodušuje interpretaci pozorované proměnné.
  • Další metodou je Equamax, což je kombinace výše uvedených dvou metod.
  • V dialogovém okně kliknutím na „možnosti“ můžete spravovat chybějící hodnoty
  • Před uložením výsledků do datové sady nejprve spusťte analýzu faktorů a zkontrolujte předpoklady a potvrďte, že výsledky jsou smysluplné a užitečné.

Clusterová analýza vs. analýza faktorů

Klastrová analýza i faktorová analýza jsou metodou učení bez dozoru, která se používá pro segmentaci dat. Mnoho vědců, kteří jsou v této oblasti noví, má pocit, že shluková analýza a faktorová analýza jsou podobné. Může to vypadat podobně, ale liší se mnoha způsoby. Rozdíly mezi klastrovou analýzou a faktorovou analýzou jsou uvedeny níže

  • Objektivní

Cíl klastrové a faktorové analýzy je jiný. Cílem shlukové analýzy je rozdělit pozorování na homogenní a odlišné skupiny. Faktorová analýza na druhé straně vysvětluje homogenitu proměnných vyplývajících z podobnosti hodnot.

  • Složitost

Složitost je dalším faktorem, na kterém se liší klastrová a faktorová analýza. Velikost dat ovlivňuje analýzu odlišně. Pokud je velikost dat příliš velká, stane se výpočetně neřešitelnou v clusterové analýze.

  • Řešení

Řešení problému je více méně podobné ve faktorové i klastrové analýze. Faktorová analýza však poskytuje lepší řešení pro vědce v lepším aspektu. Klastrová analýza nepřináší nejlepší výsledek, protože všechny algoritmy v klastrové analýze jsou výpočetně neefektivní.

  • Aplikace

Faktorová analýza a shluková analýza jsou aplikována odlišně na reálná data. Faktorová analýza je vhodná pro zjednodušení složitých modelů. Redukuje velkou sadu proměnných na mnohem menší sadu faktorů. Výzkumník může vyvinout sadu hypotéz a provést analýzu faktorů pro potvrzení nebo zamítnutí těchto hypotéz.

Klastrová analýza je vhodná pro klasifikaci objektů na základě určitých kritérií. Výzkumník může měřit určité aspekty skupiny a rozdělit je do konkrétních kategorií pomocí shlukové analýzy.

Existuje také mnoho dalších rozdílů, které jsou uvedeny níže

  • Clusterová analýza se pokouší seskupovat případy, zatímco faktorová analýza se pokouší seskupit funkce.
  • Shluková analýza se používá k nalezení menších skupin případů, které jsou reprezentativní pro data jako celek. Faktorová analýza se používá k nalezení menší skupiny funkcí, které jsou reprezentativní pro původní prvky datových sad.
  • Nejdůležitější součástí klastrové analýzy je zjištění počtu klastrů. Metody shlukování jsou v zásadě rozděleny na dvě metody - Aglomerační metoda a Metoda rozdělení. Aglomerační metoda začíná každým případem ve svém vlastním klastru a zastaví se, jakmile je dosaženo kritéria. Metoda dělení začíná ve všech případech v jednom klastru.
  • Faktorová analýza se používá k nalezení základní struktury v sadě dat.

Závěr

Doufám, že tento článek by vám pomohl pochopit základy Clusterové analýzy a Faktorové analýzy a rozdíly mezi nimi.

Související kurzy: -

  1. Kurz klastrové analýzy