Analiza czynnikowa danych mieszanych

W statystyce analiza czynnikowa danych mieszanych lub analiza czynnikowa danych mieszanych ( FAMD , w oryginale francuskim: AFDM lub Analyze Factorielle de Données Mixtes ), jest metodą czynnikową poświęconą tabelom danych , w których grupa osób jest opisana zarówno ilościowo i zmienne jakościowe. Należy do metod eksploracyjnych opracowanych przez francuską szkołę Analyze des données (analiza danych) założoną przez Jeana-Paula Benzécriego .

Termin mieszany odnosi się do wykorzystania zarówno zmiennych ilościowych, jak i jakościowych. Z grubsza można powiedzieć, że FAMD działa jako analiza głównych składowych (PCA) dla zmiennych ilościowych i jako analiza wielokrotnej korespondencji (MCA) dla zmiennych jakościowych.

Zakres

Gdy dane obejmują oba typy zmiennych, ale aktywne zmienne są jednorodne, można zastosować PCA lub MCA.

Rzeczywiście, łatwo jest uwzględnić dodatkowe zmienne ilościowe w MCA przez współczynniki korelacji między zmiennymi a czynnikami na jednostkach (czynnik na jednostkach to wektor gromadzący współrzędne jednostek na osi czynnikowej); otrzymana reprezentacja jest kołem korelacyjnym (jak w PCA).

Podobnie łatwo jest uwzględnić dodatkowe zmienne kategorialne w PCA. W tym celu każda kategoria jest reprezentowana przez środek ciężkości osób, które ją posiadają (jako MCA).

Gdy zmienne aktywne są mieszane, zwyczajową praktyką jest dyskretyzacja zmiennych ilościowych (np. zwykle w badaniach wiek jest przekształcany w klasy wieku). Uzyskane w ten sposób dane mogą być przetwarzane przez MCA.

Ta praktyka osiąga swoje granice:

  • Gdy jest niewiele osób (mniej niż sto do naprawienia pomysłów), w którym to przypadku MCA jest niestabilny;
  • Gdy istnieje niewiele zmiennych jakościowych w odniesieniu do zmiennych ilościowych (można niechętnie dyskretyzować dwadzieścia zmiennych ilościowych, aby uwzględnić jedną zmienną jakościową).

Kryterium

Dane obejmują ilościowe jakościowe .

jest zmienną ilościową. zauważamy:

  • współczynnik korelacji między zmiennymi i ;
  • kwadratowy współczynnik korelacji między zmiennymi q .

W PCA funkcji na (funkcja na przypadku zmiennych początkowych i głównych składników ) najbardziej skorelowane ze wszystkimi zmiennymi w następującym sensie:

maksimum.

W MCA Q szukamy funkcji na bardziej powiązanej ze wszystkimi w następującym sensie:

maksimum.

W szukamy ze _ sens:

maksimum.

W tym kryterium oba typy zmiennych odgrywają taką samą rolę. Udział każdej zmiennej w tym kryterium jest ograniczony przez 1.

Działki

Reprezentacja jednostek jest dokonywana bezpośrednio z

Reprezentacja zmiennych ilościowych jest skonstruowana jak w PCA (koło korelacyjne).

Reprezentacja kategorii zmiennych jakościowych jest taka, jak w MCA: kategoria znajduje się w środku ciężkości jednostek, które ją posiadają. Zauważmy, że bierzemy dokładny środek ciężkości, a nie jak to jest w MCA, środek ciężkości aż do współczynnika zależnego od osi (w MCA ten współczynnik jest równy odwrotności pierwiastka kwadratowego wartości własnej; w FAMD byłby nieadekwatny ).

Reprezentacja zmiennych nazywana jest relacją kwadratową . Współrzędna zmiennej jakościowej wzdłuż osi korelacji między współczynnikiem ). Współrzędne zmiennej ilościowej wzdłuż osi kwadratowi współczynnika korelacji między zmienną współczynnikiem rangi r ).

Pomoce interpretacyjne

Wskaźniki relacji między zmiennymi początkowymi są łączone w tak zwaną macierz relacji, która zawiera na przecięciu wiersza i kolumny :

  • Jeśli zmienne i korelacji między zmiennymi i do { ;
  • Jeśli zmienna , a zmienna korelacji między i do }
  • Jeśli zmienne wskaźnik między i \

Przykład

Bardzo mały zbiór danych (Tabela 1) ilustruje działanie i wyniki FAMD. Sześć osób jest opisanych trzema zmiennymi ilościowymi i trzema zmiennymi jakościowymi. Dane analizowano przy użyciu funkcji pakietu R FAMD FactoMineR.

Tabela 1. Dane (przykład testowy).
2 4.5 4 -A -B -C
5 4.5 4 -C -B -C
3 1 2 -B -B -B
4 1 2 -B -B -B
1 1 1 -A -A -A
6 1 2 -C -A -A
Tabela 2. Przykład testowy. Macierz relacji.
1 0.00 0,05 0,91 0.00 0.00
0.00 1 0,90 0,25 0,25 1.00
0,05 0,90 1 0,13 0,40 0,93
0,91 0,25 0,13 2 0,25 1.00
0.00 0,25 0,40 0,25 1 1.00
0.00 1.00 0,93 1.00 1.00 2

współczynniki są równe (zmienne ilościowe), \ (jedna zmienna każdego typu).

Macierz pokazuje splątanie relacji między dwoma typami zmiennych.

Reprezentacja jednostek (ryc. 1) wyraźnie pokazuje trzy grupy osób. Pierwsza oś przeciwstawia jednostki 1 i 2 wszystkim pozostałym. Druga oś przeciwstawia osoby 3 i 4 osobom 5 i 6.

Rysunek 1. FAMD. Przykład testowy. Reprezentacja osób fizycznych.
Rysunek 2. FAMD. Przykład testowy. Kwadrat związku.
Rysunek 3. FAMD. Przykład testowy. Koło korelacji.
Rysunek 4. FAMD. Przykład testowy. Reprezentacja kategorii zmiennych jakościowych.

Reprezentacja zmiennych (kwadrat relacji, rysunek 2) pokazuje, że pierwsza oś ( jest ściśle powiązana ze zmiennymi , i . Koło korelacji \ k { ; ) wyjaśnia naturę relacji między i Ostatecznie osobniki 1 i 2, zindywidualizowane przez pierwszą oś, charakteryzują się wysokimi wartościami i kategoriami kategoriami k \ również.

Ten przykład ilustruje, w jaki sposób FAMD jednocześnie analizuje zmienne ilościowe i jakościowe. W ten sposób pokazuje w tym przykładzie pierwszy wymiar oparty na dwóch typach zmiennych.

Historia

Oryginalna praca FAMD jest dziełem Brigitte Escofier i Gilberta Saporty. Praca ta została wznowiona w 2002 roku przez Jérôme Pages. Najbardziej kompletna prezentacja FAMD w języku angielskim zawarta jest w książce Jérôme'a Pagesa.

Oprogramowanie

Metoda jest zaimplementowana w pakiecie R FactoMineR . Metoda jest zaimplementowana w bibliotece Prince w Pythonie .