Analiza wieloczynnikowa

Analiza wieloczynnikowa (MFA) to metoda czynnikowa poświęcona badaniu tabel, w których grupa osobników jest opisana przez zestaw zmiennych (ilościowych i/lub jakościowych) ustrukturyzowanych w grupy. Jest to wielowymiarowa metoda z dziedziny ordynacji służąca do upraszczania wielowymiarowych struktur danych. Usługa MFA traktuje wszystkie zaangażowane tabele w ten sam sposób (analiza symetryczna). Może to być postrzegane jako rozszerzenie:

Przykład wprowadzający

Po co wprowadzać kilka aktywnych grup zmiennych do tej samej analizy czynnikowej?

dane

Rozważ przypadek zmiennych ilościowych, to znaczy w ramach PCA. Przykład danych z badań ekologicznych stanowi użyteczną ilustrację. Dla 72 stacji istnieją dwa rodzaje pomiarów:

  1. Współczynnik liczebności-dominacji 50 gatunków roślin (współczynnik w zakresie od 0 = roślina jest nieobecna, do 9 = gatunek obejmuje ponad trzy czwarte powierzchni). Cały zestaw 50 współczynników określa profil florystyczny stacji.
  2. Jedenaście pomiarów pedologicznych ( pedologia = gleboznawstwo): wielkość cząstek, fizyczne, chemiczne itp. Zestaw tych jedenastu pomiarów określa profil pedologiczny stacji.

Możliwe są trzy analizy:

  1. PCA flory (pedologia jako uzupełnienie): ta analiza koncentruje się na zmienności profili florystycznych. Dwie stacje są blisko siebie, jeśli mają podobne profile florystyczne. W drugim etapie główne wymiary tej zmienności (tj. główne składowe) są odnoszone do zmiennych pedologicznych wprowadzonych jako uzupełnienie.
  2. PCA pedologii (flora jako uzupełnienie): ta analiza koncentruje się na zmienności profili glebowych. Dwie stacje są blisko siebie, jeśli mają ten sam profil glebowy. Główne wymiary tej zmienności (tj. główne składowe) są zatem powiązane z obfitością roślin.
  3. PCA dwóch grup zmiennych jako aktywne: można chcieć zbadać zmienność stacji zarówno z punktu widzenia flory jak i gleby. W tym podejściu dwie stacje powinny być blisko siebie, jeśli mają podobną florę „i” podobne gleby.

Równowaga między grupami zmiennych

Metodologia

Trzecia analiza przykładu wprowadzającego pośrednio zakłada równowagę między florą a glebą. Jednak w tym przykładzie sam fakt, że flora jest reprezentowana przez 50 zmiennych, a gleba przez 11 zmiennych, oznacza, że ​​na PCA z 61 aktywnymi zmiennymi będzie miała wpływ głównie flora, przynajmniej na pierwszej osi). Nie jest to pożądane: nie ma powodu, aby jedna grupa odgrywała ważniejszą rolę w analizie.

Trzon MFA opiera się na analizie czynnikowej (PCA w przypadku zmiennych ilościowych, MCA w przypadku zmiennych jakościowych), w której zmienne są ważone. Wagi te są identyczne dla zmiennych z tej samej grupy (i różnią się w zależności od grupy). Są takie, że maksymalna bezwładność osiowa grupy jest równa 1: innymi słowy, stosując PCA (lub, w stosownych przypadkach, MCA) do jednej grupy z tą wagą, otrzymujemy pierwszą wartość własną równą 1. Aby pobierz tę właściwość, MSZ przypisuje do każdej zmiennej grupy waga równa odwrotności pierwszej wartości własnej analizy (PCA lub MCA w zależności od typu zmiennej) grupy .

Formalnie, zauważając pierwszą wartość własną analizy czynnikowej jednej grupy wagę dla każdej zmiennej z grupy .

Zrównoważenie maksymalnej bezwładności osiowej zamiast całkowitej bezwładności (= liczba zmiennych w standardowym PCA) daje MFA kilka ważnych właściwości dla użytkownika. Bardziej bezpośrednio, jego zainteresowanie pojawia się w poniższym przykładzie.

Przykład

Niech dwie grupy zmiennych zostaną zdefiniowane na tym samym zbiorze osobników.

  1. Grupa 1 składa się z dwóch nieskorelowanych zmiennych A i B.
  2. Grupa 2 składa się z dwóch zmiennych {C1, C2} identycznych z tą samą zmienną C nieskorelowanych z dwoma pierwszymi.

Ten przykład nie jest całkowicie nierealny. Często konieczna jest jednoczesna analiza grup wielowymiarowych i (całkiem) jednowymiarowych.

Każda grupa mająca taką samą liczbę zmiennych ma taką samą całkowitą bezwładność.

W tym przykładzie pierwsza oś PCA jest prawie zbieżna z C. Rzeczywiście, w przestrzeni zmiennych są dwie zmienne w kierunku C: grupa 2, z całą swoją bezwładnością skoncentrowaną w jednym kierunku, wpływa głównie na pierwszą oś . Z kolei grupa 1, składająca się z dwóch ortogonalnych zmiennych (= nieskorelowanych), ma swoją bezwładność równomiernie rozłożoną na płaszczyźnie (płaszczyźnie generowanej przez dwie zmienne) i prawie nie waży na pierwszej osi.

Przykład liczbowy

Tabela 1. MSZ. Dane testowe. A i B (grupa 1) są nieskorelowane. C1 i C2 (grupa 2) są identyczne.
1 1 1 1
2 3 4 4
3 5 2 2
4 5 2 2
5 3 4 4
6 1 2 2
Tabela 2. Dane testowe. Dekompozycja inercji w PCA i MFA zastosowana do danych w tabeli 1.
PCA
Bezwładność 2,14 (100%) 1
Grupa 1 0,24(11%) 1
grupa 2 1,91(89%) 0
MSZ
Bezwładność 1,28(100%) 1
Grupa 1 0,64(50%) 1
grupa 2 0,64(50%) 0

Tabela 2 podsumowuje bezwładność pierwszych dwóch osi PCA i MFA zastosowanych do tabeli 1.

Zmienne grupy 2 składają się na 88,95% bezwładności osi 1 PCA. Pierwsza oś ( z C: korelacja między C i ;

Pierwsza oś MFA (na danych z Tabeli 1) pokazuje równowagę między dwiema grupami zmiennych: udział każdej grupy w bezwładności tej osi jest ściśle równy 50%.

Tymczasem druga oś zależy tylko od grupy 1. Jest to naturalne, ponieważ ta grupa jest dwuwymiarowa, podczas gdy druga grupa, będąc jednowymiarową, może być wysoce powiązana tylko z jedną osią (tutaj pierwszą osią).

Wnioski dotyczące równowagi między grupami

Wprowadzenie kilku aktywnych grup zmiennych do analizy czynnikowej implikuje założenie równowagi między tymi grupami.

Równowaga ta musi uwzględniać fakt, że grupa wielowymiarowa naturalnie wpływa na więcej osi niż grupa jednowymiarowa (która może nie być ściśle związana z jedną osią).

Tę rolę odgrywa ważenie MFA, które sprawia, że ​​maksymalna bezwładność osiowa każdej grupy jest równa 1.

Przykłady aplikacji

Kwestionariusze ankiety są zawsze ułożone według różnych tematów. Każdy temat to grupa zmiennych, na przykład pytania o opinie i pytania o zachowanie. Dlatego w tym przykładzie możemy chcieć przeprowadzić analizę czynnikową, w której dwie osoby są sobie bliskie, jeśli obie wyraziły te same opinie i to samo zachowanie.

Analiza sensoryczna Ten sam zestaw produktów został oceniony przez panel ekspertów i panel konsumentów. Do swojej oceny każde jury korzysta z listy deskryptorów (kwaśny, gorzki itp.). Każdy sędzia ocenia każdy deskryptor dla każdego produktu na skali intensywności, na przykład od 0 = zero lub bardzo niska do 10 = bardzo silna. W tabeli związanej z jury, na przecięciu wiersza kolumny , znajduje się średni wynik przypisany do produktu deskryptor .

Produktami są osoby. Każde jury to grupa zmiennych. Chcemy uzyskać analizę czynnikową, w której dwa produkty są podobne, jeśli zostały ocenione w ten sam sposób przez oba składy jurorów.

czasowych mierzone na . Pomiary te są wykonywane . Istnieje wiele sposobów analizy takiego zbioru danych. Jednym ze sposobów sugerowanych przez MSZ jest traktowanie każdego dnia jako grupy zmiennych w analizie tabel (każda tabela odpowiada jednej dacie) zestawionych wierszowo (analizowana tabela ma zatem wiersze i J { kolumny x

Wniosek : Te przykłady pokazują, że w praktyce zmienne są bardzo często zorganizowane w grupy.

Grafika z MSZ

Oprócz ważenia zmiennych, zainteresowanie MFA polega na serii grafik i wskaźników cennych w analizie tabeli, której kolumny są zorganizowane w grupy.

Grafika wspólna dla wszystkich prostych analiz czynnikowych (PCA, MCA)

Rdzeniem MFA jest ważona analiza czynnikowa: MFA najpierw dostarcza klasycznych wyników analiz czynnikowych.

1. Reprezentacje jednostek , w których dwie osoby są blisko siebie, jeśli wykazują podobne wartości dla wielu zmiennych w różnych grupach zmiennych; w praktyce użytkownik w szczególności bada pierwszą płaszczyznę silni.

2. Reprezentacje zmiennych ilościowych jak w PCA (koło korelacyjne).

Rysunek 1. MSZ. Dane testowe. Reprezentacja jednostek na pierwszej płaszczyźnie.
Rysunek 2. MSZ. Dane testowe. Reprezentacja zmiennych na pierwszej płaszczyźnie.

w przykładzie:

  • Pierwsza oś przeciwstawia się głównie osobnikom 1 i 5 (ryc. 1).
  • Cztery zmienne mają dodatnią współrzędną (Rysunek 2): pierwsza oś to efekt wielkości. Zatem osoba 1 ma niskie wartości dla wszystkich zmiennych, a osoba 5 ma wysokie wartości dla wszystkich zmiennych.

3. Wskaźniki wspomagające interpretację : przewidywana bezwładność, wkłady i jakość reprezentacji. W przykładzie udział osób 1 i 5 w bezwładności pierwszej osi wynosi 45,7% + 31,5% = 77,2%, co uzasadnia interpretację skupioną na tych dwóch punktach.

4. Reprezentacje kategorii zmiennych jakościowych jak w MCA (kategoria leży w środku ciężkości jednostek, które ją posiadają). Brak zmiennych jakościowych w przykładzie.

Grafika specyficzna dla tego rodzaju tabeli wielokrotnej

5. Nałożone reprezentacje jednostek „widzianych” przez każdą grupę. Osobnik rozpatrywany z punktu widzenia pojedynczej grupy nazywany jest osobnikiem cząstkowym (równocześnie osobnik rozpatrywany z punktu widzenia wszystkich zmiennych nazywany jest osobnikiem przeciętnym , ponieważ leży w środku ciężkości swoich punktów cząstkowych). częściowa gromadzi pojedynczej _ : to jest chmura analizowana w oddzielnej analizie czynnikowej (PCA lub MCA) grupy . Nałożona reprezentacja przez MSZ ma podobny cel do tego Procrustes .

Rysunek 3. MSZ. Dane testowe. Nałożona reprezentacja chmur średnich i częściowych.

W przykładzie (rysunek 3) osobnik 1 charakteryzuje się małymi rozmiarami (tj. małymi wartościami) zarówno w grupie 1, jak iw grupie 2 (punkty cząstkowe osobnika 1 mają współrzędną ujemną i są blisko siebie). Wręcz przeciwnie, osobnik 5 charakteryzuje się bardziej wysokimi wartościami dla zmiennych z grupy 2 niż dla zmiennych z grupy 1 (dla osobnika 5 punkt cząstkowy grupy 2 leży dalej od początku niż punkt cząstkowy grupy 1). Ten odczyt wykresu można sprawdzić bezpośrednio w danych.

6. Reprezentacje grup zmiennych jako takie. Na tych wykresach każda grupa zmiennych jest reprezentowana przez pojedynczy punkt. Dwie grupy zmiennych są sobie bliskie, gdy definiują tę samą strukturę na jednostkach. Przypadek skrajny: dwie grupy zmiennych, które definiują homotetyczne chmury . Współrzędna grupy osi jest wkładowi grupy do bezwładności wymiaru MSZ rangi . Wkład ten można interpretować jako wskaźnik relacji (między grupą osią stąd nazwa związku nadana temu typowi reprezentacji) Ta reprezentacja istnieje również w innych metodach czynnikowych (w szczególności MCA i FAMD), w których to przypadkach grupy zmiennych są redukowane do jednej zmiennej.

Rysunek 4. MSZ. Dane testowe. Reprezentacja grup zmiennych.

W przykładzie (Rysunek 4) ta reprezentacja pokazuje, że pierwsza oś jest powiązana z dwiema grupami zmiennych, podczas gdy druga oś jest powiązana z pierwszą grupą. Jest to zgodne z reprezentacją zmiennych (rysunek 2). W praktyce reprezentacja ta jest szczególnie cenna, gdy grupy są liczne i zawierają wiele zmiennych.

Inna siatka do czytania . Obie grupy zmiennych mają wspólny efekt wielkości (pierwsza oś) i różnią się w zależności od osi 2, ponieważ ta oś jest specyficzna dla grupy 1 (przeciwstawia się zmiennym A i B).

7. Reprezentacje czynników odrębnych analiz różnych grup. Czynniki te są reprezentowane jako dodatkowe zmienne ilościowe (koło korelacji).

Rysunek 5. MSZ. Dane testowe. Reprezentacja głównych składników oddzielnego PCA każdej grupy.

W przykładzie (rysunek 5) pierwsza oś MFA jest stosunkowo silnie skorelowana (r = 0,80) z pierwszą składową grupy 2. Grupa ta, składająca się z dwóch identycznych zmiennych, posiada tylko jedną składową główną (umieszaną z zmienna). Grupa 1 składa się z dwóch ortogonalnych zmiennych: dowolny kierunek podprzestrzeni generowanej przez te dwie zmienne ma taką samą bezwładność (równą 1). Istnieje więc niepewność co do wyboru głównych składników i nie ma powodu, aby interesować się jednym z nich w szczególności. Jednak dwie składowe dostarczone przez program są dobrze reprezentowane: płaszczyzna MFA jest zbliżona do płaszczyzny rozpiętej przez dwie zmienne grupy 1.

Wniosek

Przykład liczbowy ilustruje wyniki MFA. Oprócz bilansowania grup zmiennych i poza zwykłą grafiką PCA (MCA w przypadku zmiennych jakościowych), MFA dostarcza wyników specyficznych dla struktury grupowej zbioru zmiennych, czyli w szczególności:

  • Nałożona reprezentacja częściowych osobników do szczegółowej analizy danych;
  • Reprezentacja grup zmiennych dająca syntetyczny obraz coraz cenniejszy, ponieważ dane te obejmują wiele grup;
  • Reprezentacja czynników z oddzielnych analiz.

Niewielki rozmiar i prostota przykładu pozwalają na prostą weryfikację reguł interpretacji. Ale metoda będzie bardziej wartościowa, gdy zestaw danych jest duży i złożony. Dostępne są inne metody odpowiednie dla tego typu danych. Analiza Procrustes jest porównywana z MFA w.

Historia

MFA został opracowany przez Brigitte Escofier i Jérôme Pages w latach 80. Jest to sedno dwóch książek napisanych przez tych autorów: i. MFA i jego rozszerzenia (hierarchiczne MFA, MFA na tablicach kontyngencji itp.) są przedmiotem badań laboratorium matematyki stosowanej Agrocampus ( LMA ² ), które opublikowało książkę prezentującą podstawowe metody eksploracyjnej analizy wielowymiarowej.

Oprogramowanie

MFA jest dostępny w dwóch pakietach R ( FactoMineR i ADE4 ) oraz w wielu pakietach oprogramowania, w tym SPAD, Uniwin, XLSTAT itp. Dostępna jest również funkcja SAS [ permanent dead link ] . Wykresy w tym artykule pochodzą z pakietu R FactoMineR.

Linki zewnętrzne

  • FactoMineR AR przeznaczone do eksploracyjnej analizy danych.