Somersa D
W statystyce D Somersa , czasami błędnie określane jako D Somera , jest miarą porządkowego związku między dwiema potencjalnie zależnymi zmiennymi losowymi X i Y. D Somersa przyjmuje wartości od , gdy wszystkie pary zmiennych nie zgadzają się, do , gdy wszystkie pary zmiennych są zgodne. Somers ' D nosi imię Roberta H. Somersa, który zaproponował to w 1962 roku.
D Somersa odgrywa kluczową rolę w statystykach rang i jest parametrem stojącym za wieloma metodami nieparametrycznymi. Jest również używany jako miara jakości wyboru binarnego lub regresji porządkowej (np. regresje logistyczne ) oraz modeli scoringowych .
Próbka Somersa D
Mówimy, że dwie pary i Displaystyle są zgodne rangi lub _ < . Mówimy, że dwie pary i są niezgodne, jeśli rangi obu elementów nie zgadzają się lub jeśli < lub jeśli > . jot lub , para nie jest ani zgodna, ani niezgodna.
Niech będzie zbiorem obserwacji dwóch potencjalnie zależnych wektorów losowych X i Y . Zdefiniuj współczynnik korelacji rang Kendalla tau jako
gdzie liczba zgodnych par, par Somers' D z Y w odniesieniu do X jest zdefiniowany jako . Zauważ, że tau Kendalla jest symetryczne w X i Y , podczas gdy D Somersa jest asymetryczne w X i Y .
Ponieważ określa ilościowo liczbę par o nierównych wartościach X , Somers' D jest różnicą między liczbą zgodnych i niezgodnych par, podzieloną przez liczbę par z τ ( X , X ) {\ Displaystyle \ tau (X, X)} Wartości X w parze są nierówne.
Somers' D do dystrybucji
Niech dwie niezależne dwuwymiarowe zmienne losowe i i mają ten sam rozkład prawdopodobieństwa . . Ponownie, Somers' D , który mierzy porządkową asocjację zmiennych losowych X i Y w można zdefiniować za pomocą tau Kendalla
lub różnica między prawdopodobieństwem zgodności i niezgodności. Somers' D z Y w odniesieniu do X jest zdefiniowany jako . Zatem różnicą między dwoma odpowiednimi prawdopodobieństwami wartości nie są równe. Jeśli X ma prawdopodobieństwa , to Kendalla i D Somersa normalizuje tau Kendalla dla możliwych punktów masy zmiennej X .
Jeśli X i Y są binarne z wartościami 0 i 1, to D Somersa jest różnicą między dwoma prawdopodobieństwami:
D Somersa dla binarnych zmiennych zależnych
D Somersa jest najczęściej używane, gdy zmienna zależna Y jest zmienną binarną , tj. do klasyfikacji binarnej lub przewidywania wyników binarnych, w tym modeli wyboru binarnego w ekonometrii. Metody dopasowania takich modeli obejmują logistyczną i probitową .
Do ilościowego określenia jakości takich modeli można użyć kilku statystyk: pole pod krzywą charakterystyki działania odbiornika (ROC), gamma Goodmana i Kruskala , tau Kendalla (Tau-a) , D Somersa itp. D Somersa jest prawdopodobnie najbardziej szeroko stosowane dostępne statystyki asocjacji porządkowych. Identyczny ze współczynnikiem Giniego , Somers' D jest związany z polem pod krzywą charakterystyki działania odbiornika (AUC),
- .
W przypadku, gdy zmienna niezależna (predyktor) X jest dyskretna , a zmienna zależna (wynikowa) Y jest binarna, D Somersa równa się
gdzie jest liczbą ani zgodnych, ani niezgodnych par, które są powiązane ze zmienną a nie zmienną Y.
Przykład
0 Załóżmy, że zmienna niezależna (predyktor) X przyjmuje trzy wartości, 0,25 , 0,5 lub 0,75 , a zmienna zależna (wynikowa) Y przyjmuje dwie wartości, czyli 1 . Poniższa tabela zawiera obserwowane kombinacje X i Y :
X
Y
|
0,25 | 0,5 | 0,75 |
---|---|---|---|
0 | 3 | 5 | 2 |
1 | 1 | 7 | 6 |
Liczba zgodnych par jest równa
Liczba niezgodnych par jest równa
Liczba zremisowanych par jest równa całkowitej liczbie par minus pary zgodne i niezgodne
Zatem D Somersa jest równe