Paradoks Pana
W statystyce paradoks Lorda podnosi kwestię, kiedy należy kontrolować stan wyjściowy . W trzech artykułach Frederic M. Lord podał przykłady, kiedy statystycy mogą dojść do różnych wniosków w zależności od tego, czy dostosują się do wcześniej istniejących różnic. Holland i Rubin (1983) wykorzystują te przykłady, aby zilustrować, że w danych może istnieć wiele poprawnych porównań opisowych, ale wnioski przyczynowe wymagają bazowego (niesprawdzalnego) modelu przyczynowego. Pearl użył tych przykładów, aby zilustrować, jak działają graficzne modele przyczynowe rozwiązać problem, kiedy kontrola stanu linii bazowej jest odpowiednia.
Formuła Lorda
Najbardziej znane sformułowanie paradoksu Lorda pochodzi z jego artykułu z 1967 roku:
- „Duża uczelnia jest zainteresowana badaniem wpływu diety podawanej w stołówkach uniwersyteckich na studentów i wszelkich różnic płciowych w tych skutkach. Gromadzone są różne rodzaje danych. W szczególności odnotowuje się wagę każdego ucznia w momencie jego przybycia we wrześniu oraz jego wagę w czerwcu następnego roku”. (Pan 1967, s. 304)
Zarówno we wrześniu, jak iw czerwcu ogólny rozkład masy samców jest taki sam, chociaż waga poszczególnych osób uległa zmianie, podobnie jak rozkład masy samic.
Lord wyobraża sobie dwóch statystyków, którzy używają różnych powszechnych metod statystycznych, ale dochodzą do przeciwnych wniosków.
Jeden statystyk nie koryguje wagi początkowej, zamiast tego stosuje analizę wariancji (ANOVA) i porównanie wyników przyrostu (średnia końcowa masa osobników - średnia masa początkowa) jako wynik. Pierwszy statystyk twierdzi, że nie ma znaczącej różnicy między płciami: „[A] jeśli chodzi o te dane, nie ma dowodów na jakikolwiek interesujący wpływ diety (lub czegokolwiek innego) na wagę uczniów. W szczególności nie ma dowodów na żadnego zróżnicowanego wpływu na obie płcie, ponieważ żadna z grup nie wykazuje żadnych systematycznych zmian”. (str. 305) Wizualnie, pierwszy statystyk widzi, że średnia dla żadnej z grup („A” i „B”) nie uległa zmianie i dochodzi do wniosku, że nowa dieta nie miała wpływu przyczynowego.
Drugi statystyk koryguje wagę początkową za pomocą analizy kowariancji (ANCOVA) i jako wynik porównuje (skorygowane) wagi końcowe. Znajduje znaczącą różnicę między dwiema jadalniami. Wizualnie drugi statystyk dopasowuje model regresji (zielone kropkowane linie), stwierdza, że punkt przecięcia różni się dla chłopców i dziewcząt, i dochodzi do wniosku, że nowa dieta miała większy wpływ na mężczyzn.
Lord podsumował: „po prostu nie ma logicznej ani statystycznej procedury, na którą można liczyć, aby odpowiednio uwzględnić niekontrolowane wcześniej istniejące różnice między grupami”.
Odpowiedzi
Było wiele prób i interpretacji paradoksu, wraz z jego związkiem z innymi paradoksami statystycznymi . Choć początkowo sformułowany jako paradoks, późniejsi autorzy wykorzystali ten przykład, aby wyjaśnić znaczenie niesprawdzalnych założeń we wnioskowaniu przyczynowym.
Znaczenie założeń modelowania
Bock (1975)
Bock odpowiedział na paradoks, twierdząc, że obaj statystycy w scenariuszu mają rację, gdy zadawane pytanie zostanie wyjaśnione. Pierwszy statystyk (który porównuje średnie grupowe i rozkłady) pyta „czy istnieją różnice w średnim przybieraniu na wadze?”, podczas gdy drugi pyta „jakie są różnice w indywidualnym przybieraniu na wadze?”
Cox i McCullagh (1982)
Cox i McCullagh interpretują problem, konstruując model tego, co mogłoby się stać, gdyby uczniowie nie jedli obiadu w jadalni, gdzie zakładają, że waga ucznia pozostałaby stała. Dochodzą do wniosku, że w rzeczywistości pierwszy statystyk miał rację, pytając o różnice między grupami, podczas gdy drugi miał rację, pytając o wpływ na jednostkę.
Holandia i Rubin (1983)
Holland i Rubin (1983) argumentują, że obaj statystycy uchwycili dokładne cechy opisowe danych: Statystyk 1 dokładnie nie stwierdza różnic we względnych zmianach masy ciała między dwiema płciami, podczas gdy Statystyk 2 trafnie stwierdza większy średni przyrost masy ciała u chłopców zależny od chłopca i dziewczyna mają taką samą wagę startową. Jednak przekształcając te opisy w stwierdzenia przyczynowe, pośrednio twierdzą, że w przeciwnym razie waga pozostałaby stała (Statystyk 1) lub że byłaby zgodna z założonym modelem liniowym (Statystyk 2).
„Podsumowując, uważamy, że poniższe poglądy rozwiązują paradoks Lorda. Gdyby obaj statystycy wypowiadali się tylko opisowo, obaj mieliby rację. Statystyk 1 bezwarunkowo stwierdza, że średnie przyrosty masy ciała dla mężczyzn i kobiet są równe; Statystyk 2 formułuje warunkowe (na X ) stwierdzenie, że dla mężczyzn i kobiet o równej masie września, mężczyźni zyskują więcej niż kobiety. Z drugiej strony, gdyby statystycy zamienili te twierdzenia opisowe w twierdzenia przyczynowe, żadne z nich nie byłoby poprawne ani niepoprawne, ponieważ niesprawdzalne założenia określają poprawność twierdzeń przyczynowych… Statystyk 1 myli się, ponieważ formułuje stwierdzenie przyczynowe bez określenia założenia potrzebnego do jego sformułowania PRAWDA. Statystyk 2 jest bardziej ostrożny, ponieważ wypowiada jedynie stwierdzenia opisowe. Jednakże, o ile on również nie poczyni dalszych założeń, jego opisowe stwierdzenie jest całkowicie nieistotne dla zainteresowania dietetyka z kampusu efektami diety stołowej” (str. 19).
Co więcej, podstawowe założenia niezbędne do przekształcenia stwierdzeń opisowych w twierdzenia przyczynowe są nietestowalne. W przeciwieństwie do stwierdzeń opisowych (np. „średni wzrost w USA wynosi X ”), twierdzenia przyczynowe obejmują porównanie między tym, co się wydarzyło, a tym, co miałoby stało się bez interwencji. To ostatnie jest nieobserwowalne w rzeczywistym świecie, co Holland i Rubin nazywają „podstawowym problemem wnioskowania przyczynowego” (s. 10). To wyjaśnia, dlaczego badacze często zwracają się ku eksperymentom: chociaż wciąż nigdy nie obserwujemy obu kontrfaktów dla jednego podmiotu, eksperymenty pozwalają nam formułować statystyczne twierdzenia o tych różnicach w populacji przy minimalnych założeniach. W przypadku braku eksperymentu twórcy modeli powinni dokładnie opisać model, którego używają do sformułowania twierdzeń przyczynowych i uzasadnić te modele tak mocno, jak to możliwe.
Perła (2016)
Pearl (2016) zgadza się z konkluzją Lorda, że odpowiedzi nie można znaleźć w danych, ale uważa, że relacja Hollanda i Rubina jest niekompletna. Jego zdaniem całkowite rozwiązanie paradoksu powinno dostarczyć odpowiedzi na podstawowe pytanie Lorda: „Jak pozwolić na istniejące wcześniej różnice między grupami?” Ponadto, ponieważ odpowiedź zależy od przyjętego modelu przyczynowego, powinniśmy wyjaśnić: (1) Dlaczego ludzie uważają historię Pana za „paradoksalną”, a nie „wymagającą więcej informacji” oraz (2) Jak właściwie wykorzystać modele przyczynowe, aby odpowiedzieć na pytanie Pana, niezależnie od tego, czy są testowalne, czy nie.
W tym celu Pearl wykorzystała uproszczoną wersję Lord's Paradox, zaproponowaną przez Wainera i Browna, w której nie uwzględnia się różnic między płciami. Zamiast tego przedmiotem zainteresowania jest wpływ diety na przyrost masy ciała, jak pokazano na rycinie 2 (a).
Dwie elipsy reprezentują dwie jadalnie, z których każda serwuje inną dietę, a każdy punkt reprezentuje początkową i końcową wagę ucznia. Zwróć uwagę, że uczniowie, którzy na początku ważą więcej, zwykle jedzą w jadalni B, podczas gdy ci, którzy ważą mniej, jedzą w jadalni A. Pierwszy statystyk twierdzi, że przejście z diety A na dietę B nie miałoby wpływu na przyrost masy ciała, ponieważ zysk W F – W I ma taki sam rozkład w obu elipsach. Drugi statystyk porównuje końcową wagę w diecie A z wagą w diecie B dla grupy uczniów o tej samej początkowej masie ciała W 0 i stwierdza, że ta ostatnia jest większa niż pierwsza na każdym poziomie W 0 . Dochodzi zatem do wniosku, że studenci na diecie B zyskują więcej niż ci na diecie A. Tak jak poprzednio, dane nie mogą nam powiedzieć, komu wierzyć, i aby rozwiązać problem, należy przyjąć model przyczynowy. Jeden prawdopodobny model pokazano na rysunku 2 (b). W tym modelu W I jest jedynym czynnikiem zakłócającym D i W F , więc kontrolowanie D jest niezbędne do usunięcia potrzebnego efektu przyczynowego. Zakładając ten model, drugi statystyk miałby rację, a pierwszy byłby w błędzie.
Ta analiza ujawnia również, dlaczego historia Lorda wydaje się paradoksalna i dlaczego pokolenia statystyków uznały ją za kłopotliwą.
Według Pearl, dane wywołują zderzenie dwóch silnych intuicji, obie są ważne w myśleniu przyczynowym, ale nie w myśleniu bezprzyczynowym, na które powoływał się pierwszy statystyk.
Jedna z intuicji głosi, że aby uzyskać pożądany efekt, musimy „odpowiednio uwzględnić” niekontrolowane wcześniej istniejące różnice między grupami” (tj. początkowe wagi). Drugi twierdzi, że ogólny efekt (Dieta na przyrost) jest po prostu średnią efektów specyficznych dla warstwy. Te dwie intuicje są słuszne, ale wydają się kolidować, gdy interpretujemy odkrycie pierwszego statystyka jako efekt zerowy, podczas gdy w rzeczywistości jego odkrycie pociąga za sobą jedynie równość rozkładów i nie mówi nic o „skutkach”. Można to również zobaczyć na rysunku 2 (b), który pozwala D na przyczynowy wpływ na Y jednocześnie być od niej statystycznie niezależny (ze względu na anulowanie ścieżek).
To rozwiązanie Lord's Paradox odpowiada na oba pytania: (1) Jak uwzględnić istniejące wcześniej różnice między grupami i (2) Dlaczego dane wydają się paradoksalne. Rachunek do -calculus Pearla dalej odpowiada na pytanie (1) dla dowolnego przyjętego modelu przyczynowego , w tym modeli z wieloma nieobserwowanymi czynnikami zakłócającymi.
Waga początkowa jako mediator
Wracając do pierwotnego problemu Lorda polegającego na porównaniu chłopców i dziewcząt, Pearl (2016) zakłada inny model przyczynowy, w którym płeć i początkowa waga wpływają na ostateczną wagę. Ponadto, ponieważ płeć wpływa również na wagę początkową, masa początkowa staje się zmienną pośredniczącą: płeć wpływa na wagę końcową zarówno poprzez efekt bezpośredni, jak i pośredni (poprzez wpływ na masę początkową, która następnie wpływa na wagę końcową). Należy zauważyć, że żadna z tych zmiennych nie jest czynnikiem zakłócającym, więc kontrole nie są bezwzględnie konieczne w tym modelu. Jednak wybór, czy kontrolować wagę początkową, decyduje o tym, jaki efekt mierzy badacz: pierwszy statystyk nie kontroluje i mierzy efekt całkowity, podczas gdy drugi kontroluje i mierzy efekt bezpośredni.
„Przypadki, w których skutki całkowite i bezpośrednie różnią się objawami, są powszechne. Na przykład wcale nie jesteśmy zaskoczeni, gdy szczepienie przeciw ospie niesie ze sobą ryzyko reakcji śmiertelnej, ale zmniejsza ogólną śmiertelność poprzez wyeliminowanie ospy. Bezpośrednim skutkiem (reakcją śmiertelną) w tym przypadku jest negatywny dla każdej warstwy populacji, ale całkowity wpływ (na śmiertelność) jest pozytywny dla całej populacji”. (str. 4)
Tu, Gunnell i Gilthorpe (2008) używają podobnych ram przyczynowych, ale przeciwstawiają się temu, że konceptualizacja bezpośredniego i całkowitego skutku nie jest najlepszą ramą w wielu przypadkach, ponieważ istnieje wiele różnych zmiennych, które można kontrolować, bez podstawy eksperymentalnej , która są to odrębne ścieżki przyczynowe.
Stosunek do innych paradoksów
Według Tu, Gunnella i Gilthorpe'a paradoks Lorda jest ciągłą wersją paradoksu Simpsona . Autorzy ci twierdzą, że paradoks Lorda, paradoks Simpsona i tłumienie współzmiennych przez nieskorelowane zmienne predykcyjne to to samo, a mianowicie paradoks odwrotny .
Znaczenie
Ogólnie rzecz biorąc, „podstawowy problem wnioskowania przyczynowego” i powiązane koncepcje agregacji Paradoks Simpsona odgrywa główną rolę w statystyce stosowanej. Lord's Paradox i związane z nim analizy stanowią potężne narzędzie dydaktyczne do zrozumienia tych podstawowych pojęć statystycznych.
Mówiąc bardziej bezpośrednio, Paradoks Pana może mieć wpływ zarówno na politykę edukacyjną, jak i zdrowotną, która próbuje nagradzać nauczycieli lub szpitale za ulepszenia, jakich dokonali ich dzieci/pacjenci pod ich opieką, co jest podstawą inicjatywy „No Child Left Behind ” . Podejrzewa się również, że bierze udział w badaniach łączących IQ z wadami wzroku.