Kompaktowy wyświetlacz literowy

Kompaktowe wyświetlanie liter ( CLD ) to metoda statystyczna wyjaśniająca wyniki testowania wielu hipotez przy użyciu testów ANOVA i testów rozstępów Tukeya . CLD można również zastosować po nowym teście wielokrotnego zasięgu Duncana (który jest podobny do testu zasięgu Tukeya). CLD ułatwia identyfikację zmiennych lub czynników , które mają statystycznie różne średnie (lub średnie) w porównaniu z tymi, które nie mają statystycznie różnych średnich (lub średnich).

Podstawową techniką wyświetlania zwartych liter jest oznaczanie zmiennych jedną lub kilkoma literami, tak aby zmienne były statystycznie nie do odróżnienia wtedy i tylko wtedy, gdy mają co najmniej jedną literę. Problem polegający na użyciu jak najmniejszej liczby różnych liter można przedstawić kombinatorycznie jako problem obliczenia pokrycia kliki krawędzi wykresu reprezentującego pary nierozróżnialnych zmiennych.

Oprócz oznaczania rozróżnialności w ten sposób, CLD klasyfikuje również zmienne lub czynniki według ich odpowiedniej średniej (lub średniej) w kolejności malejącej. Metodologię CLD można zastosować do danych tabelarycznych ( kalkulacyjny , ramka danych ) lub danych wizualnych ( wykres pudełkowy i wykres słupkowy ).

Podstawy CLD

CLD identyfikuje zmienne, które różnią się statystycznie od tych, które nie są

Każda zmienna, która ma wspólną średnią, która nie różni się statystycznie od innej, będzie miała tę samą literę. Na przykład:

„a” „ab” „b”

Powyższe wskazuje, że pierwsza zmienna „a” ma średnią (lub średnią) statystycznie różną od trzeciej „b”. Ale druga zmienna „ab” ma średnią, która nie różni się statystycznie ani od pierwszej, ani od trzeciej zmiennej. Spójrzmy na inny przykład:

„a” „ab” „bc” „c”

Z powyższego wynika, że ​​pierwsza zmienna „a” ma średnią (lub średnią) statystycznie różną od trzeciej zmiennej „bc” i czwartej „c”. Ale ta pierwsza zmienna „a” nie różni się statystycznie od drugiej „ab”.

Biorąc pod uwagę strukturę alfabetu łacińskiego, metodologia CLD mogła z łatwością porównać do 26 różnych zmiennych lub czynników. Ograniczenie to jest zazwyczaj znacznie większe niż w zdecydowanej większości testowania wielu hipotez przeprowadzanych przy użyciu testów ANOVA i testów rozstępów Tukeya.

CLD szereguje zmienne w malejącej kolejności średniej (lub średniej).

Tak więc zmienna o najwyższej średniej (lub średniej) będzie nazywana „a” (jeśli jest statystycznie różna od wszystkich pozostałych, w przeciwnym razie może być nazywana „ab” itp.). A zmienna z najniższą średnią (lub średnią) będzie miała najwyższą literę spośród testowanych zmiennych.

Przykład CLD

Sprawdzimy, czy średnie opady w pięciu miastach Zachodniego Wybrzeża różnią się statystycznie. Te miasta to:

  1. Eugeniusz (OR)
  2. Portland (OR)
  3. San Francisco (Kalifornia)
  4. Seattle (Waszyngtonski)
  5. Spokane (Waszyngton)

Dane to roczne opady w calach (1951 – 2021).

Źródłem danych jest NOAA .

Najpierw poprawimy dane tabelaryczne za pomocą CLD.

Następnie poprawimy dane wizualne za pomocą CLD.

Poprawianie danych tabelarycznych za pomocą CLD

Oto dane dotyczące opadów w pięciu miastach Zachodniego Wybrzeża przed zastosowaniem metodologii CLD.

Dane dotyczące opadów dla pięciu miast na Zachodnim Wybrzeżu

Jak pokazano powyżej, dane dotyczące opadów dla pięciu miast Zachodniego Wybrzeża są posortowane w porządku alfabetycznym. To zamówienie nie ma charakteru informacyjnego. Trudno jest ustalić, które średnie lub średnie poszczególnych miast różnią się od siebie.

Następnie odtwarzamy tę samą tabelę, ale sortujemy miasta przy użyciu metodologii CLD po przeprowadzeniu testu zasięgu Tukeya.

Dane dotyczące opadów deszczu dla pięciu miast Zachodniego Wybrzeża przy użyciu metodologii CLD

Powyższa tabela z wykorzystaniem metodologii CLD jest o wiele bardziej pouczająca. Uszeregował miasta według ich średniej lub średniej opadów w porządku malejącym. Pogrupował także miasta, które mają podobne średnie opady (nie różnią się statystycznie przy użyciu wartości alfa 0,05).

Jak pokazano, Seattle i Portland mają średnie poziomy opadów, które nie różnią się statystycznie od siebie. Oba są sklasyfikowane jako „b”. Ponadto San Francisco i Spokane mają średnie poziomy opadów, które nie różnią się statystycznie od siebie. Oba są sklasyfikowane jako „c”. Jednak średni poziom opadów w Eugene jest statystycznie inny i wyższy niż w Seattle i Portland czy w San Francisco i Spokane. A Seattle i Portland mają średnie poziomy opadów, które są statystycznie różne i wyższe niż w San Francisco i Spokane.

Poprawianie danych wizualnych za pomocą CLD

Oto pierwszy wykres pudełkowy z miastami posortowanymi w porządku alfabetycznym od lewej do prawej.

Wykres pudełkowy danych dotyczących opadów w pięciu miastach Zachodniego Wybrzeża

Powyższy wykres pudełkowy nie jest do końca jasny. Trudno jest odróżnić miasta, które są nieco podobne (średnia lub średnia nie różni się statystycznie) od tych, które są niepodobne (średnia lub średnia nie różni się statystycznie). Teraz obejrzyjmy ten sam wykres pudełkowy przy użyciu metodologii CLD.

Wykres pudełkowy danych dotyczących opadów w pięciu miastach Zachodniego Wybrzeża przy użyciu metodologii CLD

Powyższy wykres pudełkowy, wykorzystujący metodologię CLD, jest teraz znacznie bardziej informacyjny. Miasta są sortowane w porządku malejącym od lewej do prawej. Gęstość kolorów jest powiązana z miastami o wyższych opadach deszczu, które są zabarwione bardziej gęstymi lub nieprzejrzystymi tonami; tymczasem miasta o niższych opadach mają mniej gęste lub bardziej przejrzyste odcienie. Ponadto możemy łatwo zidentyfikować miasta, które mają podobne średnie opadów (nie różniące się statystycznie), takie jak kapelusz Seattle i Portland, które są oznaczone literą „b”. Ponadto San Francisco i Eugene również mają podobne średnie opadów, ponieważ oba są identyfikowane literą „c”. Z drugiej strony Eugene ma najwyższy średni poziom opadów ze wszystkich; i jest statystycznie inny (wyższy) niż wszystkie inne miasta, ponieważ jest jedynym miastem oznaczonym literą „a”.

Korzyści z CLD

W przypadku braku metodologii CLD, głównym podstawowym sposobem identyfikacji statystycznej różnicy średnich między sparowanymi zmiennymi jest wspomniany test rozstępów Tukeya. Ten ostatni jest bardzo pouczającym testem przeznaczonym dla audytorium statystyków. Poza tak wyspecjalizowaną publicznością wyniki testu, jak pokazano poniżej, są raczej trudne do zinterpretowania.

Wyniki testu zasięgu Tukeya dla pięciu danych dotyczących opadów deszczu w miastach Zachodniego Wybrzeża

Test zasięgu Tukeya ujawnił, że San Francisco i Spokane nie miały statystycznie różnych średnich opadów (na poziomie alfa = 0,05) z wartością p 0,08. Seattle i Portland również nie miały statystycznie różnych średnich opadów, z różnicą związaną z wartością p 0,54.

Jak pokazano wcześniej, o wiele łatwiej jest przekazać zróżnicowanie średnich opadów w miastach przy użyciu metodologii CLD. Ponadto informacje wzmocnione metodą CLD mogą być z łatwością interpretowane przez znacznie szerszą publiczność niż w przypadku innych działań (przekazywanie wyników bez stosowania metodologii CLD, w tym bezpośrednie przekazywanie wyników testu rozstępu Tukeya).

Jak skonstruować boxplot w R z Compact Letter Display

Dalsza lektura