paradoks Berksona
Paradoks Berksona , znany również jako błąd Berksona , błąd zderzacza lub błąd Berksona , jest wynikiem prawdopodobieństwa warunkowego i statystyk , które często okazują się sprzeczne z intuicją , a zatem paradoksem prawdziwym . Jest to czynnik komplikujący pojawiający się w statystycznych testach proporcji. W szczególności pojawia się, gdy w projekcie badania występuje błąd polegający na ustaleniu . Efekt związany jest z wyjaśnianiem zjawiska w sieciach bayesowskich oraz uwarunkowaniem zderzacza w modelach graficznych .
Jest on często opisywany w dziedzinie statystyki medycznej lub biostatystyki , jak w oryginalnym opisie problemu przez Josepha Berksona .
Przykłady
Przegląd
Najczęstszym przykładem paradoksu Berksona jest fałszywa obserwacja ujemnej korelacji między dwiema pożądanymi cechami, tj. że członkowie populacji, którzy mają jakąś pożądaną cechę, zwykle nie mają drugiej. Paradoks Berksona pojawia się, gdy ta obserwacja wydaje się prawdziwa, podczas gdy w rzeczywistości te dwie właściwości nie są ze sobą powiązane - lub nawet dodatnio skorelowane - ponieważ członkowie populacji, w których nie ma ich obu, nie są jednakowo obserwowani. Na przykład osoba może zaobserwować ze swojego doświadczenia, że restauracje typu fast food w jej okolicy, które serwują dobre hamburgery, zwykle serwują złe frytki i odwrotnie; ale ponieważ prawdopodobnie nie jedliby nigdzie, gdzie oba były złe, nie uwzględniają dużej liczby restauracji w tej kategorii, co osłabiłoby lub nawet odwróciłoby korelację.
Oryginalna ilustracja
Oryginalna ilustracja Berksona obejmuje retrospektywne badanie badające czynnik ryzyka choroby w próbie statystycznej z populacji pacjentów hospitalizowanych . Ponieważ próbki są pobierane od pacjentów hospitalizowanych w szpitalach, a nie od ogółu społeczeństwa, może to skutkować fałszywym negatywnym związkiem między chorobą a czynnikiem ryzyka. Na przykład, jeśli czynnikiem ryzyka jest cukrzyca, a chorobą jest zapalenie pęcherzyka żółciowego , pacjent szpitalny bez cukrzycy jest bardziej narażony na zapalenie pęcherzyka żółciowego niż członek populacji ogólnej, ponieważ pacjent musiał mieć pewne choroby niebędące cukrzycą (prawdopodobnie wywołujące zapalenie pęcherzyka żółciowego) powód, by w ogóle trafić do szpitala. Wynik ten zostanie uzyskany niezależnie od tego, czy istnieje związek między cukrzycą a zapaleniem pęcherzyka żółciowego w populacji ogólnej.
Przykład Ellenberga
Przykład przedstawiony przez Jordana Ellenberga : Załóżmy, że Alex umawia się z mężczyzną tylko wtedy, gdy jego uprzejmość plus przystojność przekraczają pewien próg. W takim razie milsi mężczyźni nie muszą być tak przystojni, aby zakwalifikować się do puli randkowej Alexa. Tak więc wśród mężczyzn, z którymi umawia się Alex , Alex może zauważyć, że ci milsi są przeciętnie mniej przystojni (i vice versa), nawet jeśli te cechy nie są skorelowane w populacji ogólnej. Należy zauważyć, że nie oznacza to, że mężczyźni w puli randkowej wypadają niekorzystnie w porównaniu z mężczyznami w populacji. Wręcz przeciwnie, kryterium wyboru Alexa oznacza, że Alex ma wysokie standardy. Przeciętny miły mężczyzna, z którym umawia się Alex, jest w rzeczywistości przystojniejszy niż przeciętny mężczyzna w populacji (ponieważ nawet wśród miłych mężczyzn najbrzydsza część populacji jest pomijana). Negatywna korelacja Berksona to efekt, który pojawia się w puli randek: niegrzeczni mężczyźni, z którymi spotyka się Alex, musieli być jeszcze przystojniejsi, aby się zakwalifikować.
Przykład ilościowy
Jako przykład ilościowy załóżmy, że kolekcjoner ma 1000 znaczków pocztowych , z których 300 jest ładnych, a 100 rzadkich, a 30 jest zarówno ładnych, jak i rzadkich. 30% wszystkich jego znaczków jest ładnych, a 10% jego ładnych znaczków to rzadkie, więc uroda nie mówi nic o rzadkości. Wystawia 370 znaczków, które są ładne lub rzadkie. Nieco ponad 27% wystawionych znaczków to rzadkie (100/370), ale nadal tylko 10% (30/300) ładnych znaczków to rzadkie (a 100% z 70 niezbyt ładnych znaczków na wystawie to rzadkie). Jeśli obserwator weźmie pod uwagę tylko znaczki na wystawie, zaobserwuje fałszywy negatywny związek między ładnością a rzadkością w wyniku błędu selekcji (to znaczy nieładność silnie wskazuje na rzadkość na wystawie, ale nie w całej kolekcji).
Oświadczenie
Dwa niezależne zdarzenia stają się warunkowo zależne , jeśli zachodzi co najmniej jedno z nich. Symbolicznie:
- Jeśli , i , a następnie i stąd .
- Zdarzenie i zdarzenie może wystąpić lub nie
-
- prawdopodobieństwo warunkowe , jest prawdopodobieństwem zaobserwowania zdarzenia, pod uwagę, że jest .
- Zdarzenie i są od siebie niezależne
-
- jest prawdopodobieństwem zaobserwowania zdarzenia biorąc pod uwagę, że i ( lub ). Można to również zapisać jako
- : Prawdopodobieństwo zarówno jak i ( ) mniejsze niż prawdopodobieństwo danego ( lub )
Innymi słowy, biorąc pod uwagę dwa niezależne zdarzenia, jeśli weźmiesz pod uwagę tylko wyniki, w których występuje co najmniej jedno, to stają się one warunkowo zależne, jak pokazano powyżej.
Istnieje prostszy, bardziej ogólny argument:
Biorąc pod uwagę dwa zdarzenia A i B z 0 < P(A) ≤ 1, mamy 0 < P(A) ≤ P(AUB) ≤ 1. Mnożąc obie strony nierówności po prawej stronie przez P(A), otrzymujemy P (A)P(AUB) ≤ P(A). Dzielenie obu stron tego przez P(AUB) daje P(A) ≤ P(A) / P(AUB) = P(A ∩ (AUB)) / P(AUB) = P(A | AUB), tj. P (A) ≤ P(A | AUB). Gdy P(AUB) < 1 (tj. gdy AUB jest zbiorem o mniejszym niż pełne prawdopodobieństwo), nierówność jest ścisła: P(A) < P(A | AUB), a zatem A i AUB są zależne.
Zauważ, że w powyższym argumencie zastosowano tylko dwa założenia: (i) 0 < P(A) ≤ 1, co jest wystarczające, aby implikować P(A) ≤ P(A | AUB). Oraz (ii) P(AUB) < 1, co z (i) implikuje ścisłą nierówność P(A) < P(A | AUB), a więc zależność A i AU B. Nie trzeba zakładać, że A i B są niezależny — jest prawdziwy dla dowolnych zdarzeń A i B spełniających (i) i (ii) (włączając zdarzenia niezależne).
Wyjaśnienie
Przyczyną jest to, że warunkowe prawdopodobieństwo wystąpienia zdarzenia biorąc pod uwagę , że ono występuje, jest zawyżone: jest wyższe niż , ponieważ wykluczyliśmy przypadki, w których żadne z nich nie .
- prawdopodobieństwo warunkowe zawyżone w stosunku do bezwarunkowego
Można to zobaczyć w formie tabelarycznej w następujący sposób: żółte regiony to wyniki, w których występuje co najmniej jedno zdarzenie (a ~A oznacza „nie A ”).
A | ~A | |
---|---|---|
B | A & B | ~A i B |
~ B | A & ~ B | ~A & ~B |
ma próbkę i zarówno jak i połowie czasu ( ), otrzymuje się:
A | ~A | |
---|---|---|
B | 25 | 25 |
~ B | 25 | 25 |
w albo lub \ , z występuje Porównując prawdopodobieństwo warunkowe bezwarunkowym prawdopodobieństwem :
że prawdopodobieństwo jest wyższe ( w podzbiorze wyników, w których występuje ( ) niż w całej populacji ( ). Z drugiej strony prawdopodobieństwo, że biorąc pod uwagę zarówno jak i ( ) prostu bezwarunkowym prawdopodobieństwem , , ponieważ jest niezależny od . W przykładzie numerycznym zawarliśmy warunek bycia w górnym rzędzie:
A | ~A | |
---|---|---|
B | 25 | 25 |
~ B | 25 | 25 |
Tutaj prawdopodobieństwo wynosi .
Paradoks Berksona powstaje, ponieważ prawdopodobieństwo warunkowe w podzbiorze trzech komórek prawdopodobieństwu warunkowemu w całej populacji, ale prawdopodobieństwo bezwarunkowe w podzbiorze jest zawyżone w stosunku do prawdopodobieństwa w całej populacji, stąd w podzbiorze obecność prawdopodobieństwo warunkowe ( powrotem do ogólnego bezwarunkowego prawdopodobieństwa): ZA {\
Zobacz też
- Berkson, Józef (czerwiec 1946). „Ograniczenia zastosowania analizy tabeli czterokrotnej do danych szpitalnych”. Biuletyn biometryczny . 2 (3): 47–53. doi : 10.2307/3002000 . JSTOR 3002000 . PMID 21001024 . (Artykuł jest często błędnie cytowany jako Berkson, J. (1949 ) Biological Bulletin 2 , 47-53.)
- Jordan Ellenberg, „ Dlaczego przystojni mężczyźni są takimi palantami? ”
Linki zewnętrzne
- Numberphile: Czy Hollywood psuje książki? – Film edukacyjny na temat paradoksu Berksona w kulturze popularnej