Sprawdzanie, czy moneta jest uczciwa
W statystyce kwestia sprawdzenia, czy moneta jest uczciwa , to taka, której znaczenie polega po pierwsze na przedstawieniu prostego problemu, na podstawie którego można zilustrować podstawowe idee wnioskowania statystycznego , a po drugie na przedstawieniu prostego problemu, który można wykorzystać do porównania różnych konkurencyjne metody wnioskowania statystycznego, w tym teoria decyzji . Praktyczny problem sprawdzenia, czy moneta jest uczciwa, można uznać za łatwy do rozwiązania, wykonując wystarczająco dużą liczbę prób, ale statystyka i teoria prawdopodobieństwa mogą dostarczyć wskazówek dotyczących dwóch rodzajów pytań; w szczególności te dotyczące liczby prób do wykonania i dokładności oszacowania prawdopodobieństwa wyrzucenia orła, wyprowadzonego z danej próby prób.
Uczciwa moneta to wyidealizowane urządzenie losujące z dwoma stanami (zwykle nazywanymi „orłami” i „reszkami” ), których wystąpienie jest równie prawdopodobne. Opiera się na rzucie monetą, powszechnie używanym w sporcie i innych sytuacjach, w których wymagane jest, aby dwie strony miały taką samą szansę na wygraną. Używany jest albo specjalnie zaprojektowany chip, albo częściej zwykła moneta walutowa, chociaż ta ostatnia może być nieco „niesprawiedliwa” ze względu na asymetryczny rozkład masy, co może powodować częstsze występowanie jednego stanu niż drugiego, dając jednej ze stron nieuczciwą przewagę . Dlatego może być konieczne eksperymentalne sprawdzenie, czy moneta jest rzeczywiście „uczciwa” – to znaczy, czy prawdopodobieństwo, że moneta spadnie na którąś ze stron podczas rzucania, wynosi dokładnie 50%. Oczywiście niemożliwe jest wykluczenie arbitralnie niewielkich odchyleń od rzetelności, takich jak można by oczekiwać, że wpłyną tylko na jeden rzut w ciągu całego życia; zawsze jest również możliwe, że nieuczciwa (lub „ stronnicza ”) moneta wypadnie dokładnie 10 reszek w 20 rzutach. W związku z tym każdy test rzetelności musi ustanawiać jedynie pewien stopień zaufania do pewnego stopnia rzetelności (pewne maksymalne obciążenie). W bardziej rygorystycznej terminologii problem polega na określeniu parametrów procesu Bernoulliego , biorąc pod uwagę tylko ograniczoną próbkę prób Bernoulliego .
Preambuła
W tym artykule opisano eksperymentalne procedury określania, czy moneta jest uczciwa, czy nie. Istnieje wiele statystycznych metod analizy takiej procedury eksperymentalnej. Ten artykuł ilustruje dwa z nich.
Obie metody zalecają eksperyment (lub próbę), w którym moneta jest rzucana wiele razy, a wynik każdego rzutu jest rejestrowany. Wyniki można następnie przeanalizować statystycznie, aby zdecydować, czy moneta jest „uczciwa”, czy „prawdopodobnie nieuczciwa”.
- Funkcja gęstości prawdopodobieństwa a posteriori lub PDF ( podejście bayesowskie ). Początkowo prawdziwe prawdopodobieństwo uzyskania określonej strony podczas rzutu monetą jest nieznane, ale niepewność jest reprezentowana przez „ rozkład a priori ”. Teoria wnioskowania bayesowskiego jest wykorzystywana do wyprowadzenia późniejszego rozkładu poprzez połączenie wcześniejszego rozkładu i funkcji wiarygodności , która reprezentuje informacje uzyskane z eksperymentu. Prawdopodobieństwo, że ta konkretna moneta jest „godziwą monetą”, można następnie uzyskać, całkując plik PDF późniejszego rozkładu w odpowiednim przedziale, który reprezentuje wszystkie prawdopodobieństwa, które można uznać za „godziwe” w praktycznym sensie.
- Estymator prawdopodobieństwa prawdziwego ( podejście częstościowe ). Ta metoda zakłada, że eksperymentator może zdecydować się na rzut monetą dowolną liczbę razy. Eksperymentator najpierw decyduje o wymaganym poziomie ufności i dopuszczalnym marginesie błędu. Parametry te określają minimalną liczbę rzutów, które należy wykonać, aby zakończyć doświadczenie.
Ważna różnica między tymi dwoma podejściami polega na tym, że pierwsze podejście przypisuje pewną wagę wcześniejszemu doświadczeniu w rzucaniu monetami, podczas gdy drugie nie. Kwestia, jaką wagę należy przypisać wcześniejszemu doświadczeniu, w zależności od jakości (wiarygodności) tego doświadczenia, jest omawiana w ramach teorii wiarygodności .
Funkcja gęstości prawdopodobieństwa a posteriori
Jedną z metod jest obliczenie późniejszej funkcji gęstości prawdopodobieństwa bayesowskiej teorii prawdopodobieństwa .
Przeprowadza się test, rzucając monetą N razy i zapisując zaobserwowane liczby orłów h i reszek t . Symbole H i T reprezentują bardziej uogólnione zmienne wyrażające odpowiednio liczbę orłów i reszek, które mogły zostać zaobserwowane w eksperymencie. Zatem N = H + T = h + t .
Następnie niech r będzie rzeczywistym prawdopodobieństwem wyrzucenia orła w jednym rzucie monetą. Jest to właściwość badanej monety. Korzystając z twierdzenia Bayesa , gęstość prawdopodobieństwa a posteriori r uwarunkowana h i t wyraża się następująco:
gdzie g ( r ) reprezentuje wcześniejszy rozkład gęstości prawdopodobieństwa r , który mieści się w zakresie od 0 do 1.
Wcześniejszy rozkład gęstości prawdopodobieństwa podsumowuje to, co wiadomo o rozkładzie r przy braku jakichkolwiek obserwacji. Założymy, że wcześniejszy rozkład r jest jednorodny w przedziale [0, 1]. Oznacza to, że g ( r ) = 1. (W praktyce bardziej odpowiednie byłoby założenie wcześniejszego rozkładu, który ma znacznie większą wagę w obszarze około 0,5, aby odzwierciedlić nasze doświadczenia z prawdziwymi monetami).
Prawdopodobieństwo wyrzucenia h orłów w N rzutach monetą z prawdopodobieństwem wyrzucenia orłów równym r jest określone przez rozkład dwumianowy :
Podstawiając to do poprzedniej formuły:
W rzeczywistości jest to rozkład beta ( koniugat poprzedzający rozkład dwumianowy), którego mianownik można wyrazić za pomocą funkcji beta :
Ponieważ przyjęto jednolity rozkład a priori i ponieważ h i t są liczbami całkowitymi, można to również zapisać za pomocą silni :
Przykład
Np. N = 10, h = 7, czyli rzucamy monetą 10 razy i wypada 7 orłów:
Wykres po prawej stronie przedstawia funkcję gęstości prawdopodobieństwa r przy założeniu, że w 10 rzutach uzyskano 7 orłów. (Uwaga: r to prawdopodobieństwo wyrzucenia orła w jednym rzucie tą samą monetą.)
Prawdopodobieństwo dla nieobciążonej monety (zdefiniowanej w tym celu jako taka, której prawdopodobieństwo wypadnięcia reszki wynosi od 45% do 55%)
jest niewielka w porównaniu z hipotezą alternatywną (obciążona moneta). Jednak nie jest na tyle mały, aby skłonić nas do przekonania, że moneta ma znaczną stronniczość. To prawdopodobieństwo jest nieco wyższe niż nasze założenie prawdopodobieństwa, że moneta była uczciwa, co odpowiada jednolitemu wcześniejszemu rozkładowi, który wynosił 10%. Używając rozkładu wcześniejszego, który odzwierciedla naszą wcześniejszą wiedzę o tym, czym jest moneta i jak działa, rozkład późniejszy nie sprzyjałby hipotezie błędu systematycznego. Jednak liczba prób w tym przykładzie (10 rzutów) jest bardzo mała, a przy większej liczbie prób wybór wcześniejszego rozkładu byłby nieco mniej istotny).
Przy jednolitym priorytecie, późniejszy rozkład prawdopodobieństwa f ( r | H = 7, T = 3) osiąga swój szczyt przy r = h / ( h + t ) = 0,7; ta wartość jest nazywana maksymalnym a posteriori (MAP) oszacowaniem r . Również przy jednolitym priorytecie oczekiwana wartość r pod rozkładem a posteriori wynosi
Estymator prawdziwego prawdopodobieństwa
Najlepszym estymatorem rzeczywistej wartości jest estymator . Ten estymator ma margines błędu (E), gdzie na określonym poziomie ufności. |
Korzystając z tego podejścia, aby zdecydować, ile razy należy rzucić monetą, wymagane są dwa parametry:
- Poziom ufności oznaczony przedziałem ufności (Z)
- Maksymalny (dopuszczalny) błąd (E)
- Poziom ufności jest oznaczony przez Z i jest określony przez wartość Z standardowego rozkładu normalnego . Tę wartość można odczytać ze standardowej tabeli statystyk wyników dla rozkładu normalnego. Niektóre przykłady to:
wartość Z | Poziom zaufania | Komentarz |
---|---|---|
0,6745 | daje poziom ufności 50.000 %. | Połowa |
1.0000 | daje poziom ufności 68,269 %. | Jeden standardowy dev |
1,6449 | daje poziom ufności 90.000 %. | „Jeden dziewięć” |
1,9599 | daje poziom ufności 95.000 %. | 95 procent |
2.0000 | daje poziom ufności 95,450 %. | Dwa std dev |
2,5759 | daje 99.000 % poziom pewności | „Dwie dziewiątki” |
3.0000 | daje poziom ufności 99,730 %. | Trzy wersje standardowe |
3,2905 | daje poziom pewności 99,900 %. | „Trzy dziewiątki” |
3,8906 | daje poziom ufności 99,990 %. | „Cztery dziewiątki” |
4.0000 | daje poziom ufności 99,993 %. | Czterostopniowa dev |
4.4172 | daje poziom ufności 99,999 %. | „Pięć dziewiątek” |
- Maksymalny błąd (E) jest określony przez gdzie prawdopodobieństwem . _ : takie samo rzeczywiste prawdopodobieństwo (uzyskania orłów), jak sekcji tego artykułu.
- W statystyce oszacowanie części próby (oznaczonej przez p ) ma błąd standardowy określony przez:
gdzie n to liczba prób (która została oznaczona przez N w poprzedniej sekcji).
Ta funkcja ma maksimum przy } . Co więcej, w przypadku rzutu monetą p będzie prawdopodobnie bliskie 0,5, więc rozsądne jest przyjęcie p = 0,5 w następującym przypadku:
Stąd wartość błędu maksymalnego (E) jest dana przez
Rozwiązanie wymaganej liczby rzutów monetą, n ,
Przykłady
1. Jeśli pożądany jest maksymalny błąd 0,01, ile razy należy rzucić monetą?
- przy poziomie ufności 68,27% (Z = 1)
- na poziomie ufności 95,45% (Z = 2)
- na poziomie ufności 99,90% (Z = 3,3)
2. Jeśli moneta zostanie rzucona 10000 razy, jaki jest maksymalny błąd estymatora ( rzeczywiste prawdopodobieństwo wyrzucenia rzut monetą)?
- na poziomie ufności 68,27% (Z = 1)
- na poziomie ufności 95,45% (Z = 2)
- na poziomie ufności 99,90% (Z = 3,3)
3. Rzuca się monetą 12000 razy, w wyniku czego wypada 5961 orłów (i 6039 reszek). W jakim przedziale mieści się wartość (prawdziwe prawdopodobieństwo uzyskania orła), jeśli pożądany jest poziom ufności 99,999
Teraz znajdź wartość Z odpowiadającą 99,999% poziomowi ufności.
Teraz oblicz E
Przedział, który zawiera r, to zatem:
Inne podejścia
Inne podejścia do kwestii sprawdzenia, czy moneta jest uczciwa, dostępne są z wykorzystaniem teorii decyzji , której zastosowanie wymagałoby sformułowania funkcji straty lub funkcji użyteczności opisującej konsekwencje podjęcia danej decyzji. Podejściem, które unika wymagania funkcji straty lub wcześniejszego prawdopodobieństwa (jak w podejściu bayesowskim), jest „próbkowanie akceptacyjne”.
Inne aplikacje
Powyższa analiza matematyczna służąca do określenia, czy moneta jest uczciwa, może być również zastosowana do innych zastosowań. Na przykład:
- Określenie proporcji wadliwych elementów dla produktu poddanego określonemu (ale dobrze określonemu) stanowi. Czasami produkt może być bardzo trudny lub kosztowny w produkcji. Ponadto, jeśli testowanie takich produktów spowoduje ich zniszczenie, należy przetestować minimalną liczbę sztuk. Korzystając z podobnej analizy, można znaleźć funkcję gęstości prawdopodobieństwa wskaźnika defektów produktu.
- Sondaż dwóch partii. Jeśli zostanie przeprowadzona ankieta na małej losowej próbie, w której istnieją tylko dwa wzajemnie wykluczające się wybory, jest to podobne do wielokrotnego rzucania jedną monetą przy użyciu potencjalnie stronniczej monety. Podobną analizę można zatem zastosować do określenia zaufania, jakie należy przypisać faktycznemu stosunkowi oddanych głosów. (Jeśli ludziom pozwoli się wstrzymać się od głosu , analiza musi to uwzględnić, a analogia z rzutem monetą nie do końca się sprawdza).
- Wyznaczanie proporcji płci w dużej grupie gatunków zwierząt. Przy założeniu, że do losowania populacji zostanie pobrana mała próba losowa (tj. mała w porównaniu z całą populacją), analiza jest podobna do określania prawdopodobieństwa wyrzucenia orła w rzucie monetą.
Zobacz też
- Test dwumianowy
- Rzut monetą
- Przedział ufności
- Teoria estymacji
- Statystyki inferencyjne
- Ładowane kostki
- Margines błędu
- Szacowanie punktowe
- Losowość statystyczna
- ^ Jednakże, jeśli moneta zostanie złapana, a nie odbita lub zakręcona, trudno jest wpłynąć na wynik rzutu monetą. Patrz Gelman , Andrew; Debora Nolan (2002). „Kącik nauczyciela: możesz załadować kostkę, ale nie możesz przechylić monety” . Statystyk amerykański . 56 (4): 308–311. doi : 10.1198/000313002605 . S2CID 123597087 .
- ^ Cox, DR, Hinkley, DV (1974) Statystyka teoretyczna (przykład 11.7), Chapman i Hall. ISBN 0-412-12420-3
- Guttman, Wilks i Hunter: Wstępna statystyka inżynierska , John Wiley & Sons, Inc. (1971) ISBN 0-471-33770-6
- Devinder Sivia: Analiza danych, samouczek bayesowski , Oxford University Press (1996) ISBN 0-19-851889-7