Warunkowanie (prawdopodobieństwo)

Przekonania zależą od dostępnych informacji. Pomysł ten jest sformalizowany w teorii prawdopodobieństwa przez warunkowanie . Prawdopodobieństwa warunkowe , oczekiwania warunkowe i rozkłady prawdopodobieństwa warunkowego są rozpatrywane na trzech poziomach: prawdopodobieństwa dyskretne , funkcje gęstości prawdopodobieństwa i teoria miary . Warunkowanie prowadzi do nielosowego wyniku, jeśli warunek jest całkowicie określony; w przeciwnym razie, jeśli warunek pozostanie losowy, wynik warunkowania również jest losowy.

Kondycjonowanie na poziomie dyskretnym

Przykład: Rzuca się 10 razy uczciwą monetą; zmienna losowa X to liczba orłów w tych 10 rzutach, a Y to liczba orłów w pierwszych 3 rzutach. Pomimo tego, że Y pojawia się przed X, może się zdarzyć, że ktoś zna X , ale nie Y.

Warunkowe prawdopodobieństwo

Biorąc pod uwagę, że X = 1, prawdopodobieństwo warunkowe zdarzenia Y = 0 wynosi

Bardziej ogólnie,

Prawdopodobieństwo warunkowe można też traktować jako zmienną losową, — funkcję zmiennej losowej X , a mianowicie:

Oczekiwanie tej zmiennej losowej jest równe (bezwarunkowemu) prawdopodobieństwu ,

mianowicie,

co jest przykładem prawa całkowitego prawdopodobieństwa

Zatem może być traktowane jako wartość zmiennej losowej odpowiadające X = 1. Z drugiej strony jest dobrze zdefiniowany niezależnie od innych możliwych wartości X .

Oczekiwanie warunkowe

Biorąc pod uwagę, że X = 1, warunkowe oczekiwanie zmiennej losowej Y wynosi Bardziej ogólnie,

(W tym przykładzie wydaje się, że jest to funkcja liniowa, ale generalnie jest nieliniowa). Warunkowe oczekiwanie można również traktować jako zmienną losową — funkcję zmiennej losowej X , a mianowicie :

Oczekiwanie tej zmiennej losowej jest równe (bezwarunkowemu) oczekiwaniu Y ,

mianowicie,

lub po prostu

co jest przykładem prawa całkowitego oczekiwania

Zmienna Y przy danym _ _ błąd zmiennych postaci f X ). Ta klasa zmiennych losowych pozostaje nienaruszona, jeśli X zostanie zastąpione, powiedzmy, przez 2 X . Zatem oznacza to, że raczej W szczególności Bardziej ogólnie, dla każdej funkcji g , która jest jeden do jednego na zbiorze wszystkich możliwych wartości X . Wartości X są nieistotne; liczy się partycja (oznacz ją α X )

przestrzeni próbki Ω na zbiory rozłączne { X = x n }. (Tutaj są wszystkimi możliwymi wartościami X .) Biorąc pod uwagę dowolny podział α z Ω, można zdefiniować zmienną losową E ( Y | α ). Mimo to mi ( mi ( Y | α)) = mi ( Y ).

Prawdopodobieństwo warunkowe można traktować jako szczególny przypadek warunkowego oczekiwania. Mianowicie, P ( | X ) = E ( Y | X ) A , jeśli Y jest wskaźnikiem A . Dlatego prawdopodobieństwo warunkowe zależy również od podziału α X generowanego przez X , a nie od samego X ; P. ( ZA | sol ( X ) ) = P. ( ZA | X ) = P. ( ZA | α), α = α X = α sol ( X ) .

Z drugiej strony uwarunkowanie zdarzenia jest zdefiniowane, pod warunkiem, że jakiejkolwiek partycji, która może jako jedną kilka części.

Dystrybucja warunkowa

Biorąc pod uwagę X = x, rozkład warunkowy Y wynosi

dla 0 ≤ y ≤ min ( 3, x ). Jest to rozkład hipergeometryczny H ( x ; 3, 7 ) lub równoważnie H ( 3; x , 10- x ). Odpowiednie oczekiwanie 0,3 x , otrzymane ze wzoru ogólnego

dla H ( n ; R , W ) jest niczym innym jak oczekiwaniem warunkowym E ( Y | X = x ) = 0,3 x .

Traktując H ( X ; 3, 7 ) jako rozkład losowy (wektor losowy w czterowymiarowej przestrzeni wszystkich miar na {0,1,2,3}), można przyjąć jego oczekiwanie, otrzymując bezwarunkowy rozkład Y , — rozkład dwumianowy Bin ( 3, 0,5 ). Fakt ten sprowadza się do równości

dla y = 0,1,2,3; co jest przykładem prawa całkowitego prawdopodobieństwa .

Warunkowanie na poziomie gęstości

Przykład . Punkt kuli x 2 + y 2 + z 2 = 1 jest wybierany losowo zgodnie z rozkładem równomiernym na kuli . Zmienne losowe X , Y , Z są współrzędnymi losowego punktu. Gęstość stawów X , Y , Z nie istnieje (ponieważ kula ma zerową objętość), ale gęstość stawów f X , Y z X , Y istnieje,

(Gęstość nie jest stała z powodu niestałego kąta między kulą a płaszczyzną ). Gęstość X można obliczyć przez całkowanie,

co zaskakujące, wynik nie zależy od x w (−1,1),

co oznacza, że ​​X jest równomiernie rozłożony na (-1,1). To samo odnosi się do Y i Z (i faktycznie do aX + bY + cZ , ilekroć a 2 + b 2 + c 2 = 1).

Przykład . Poniżej przedstawiono inną miarę obliczania funkcji dystrybucji krańcowej

Warunkowe prawdopodobieństwo

Obliczenie

Biorąc pod uwagę, że X = 0,5, prawdopodobieństwo warunkowe zdarzenia Y ≤ 0,75 jest całką gęstości warunkowej,

Bardziej ogólnie,

dla wszystkich x i y takie, że -1 < x <1 (w przeciwnym razie mianownik fa X ( x ) znika) i (w przeciwnym razie prawdopodobieństwo warunkowe spada do 0 lub 1). Prawdopodobieństwo warunkowe można też traktować jako zmienną losową, — funkcję zmiennej losowej X , a mianowicie:

Oczekiwanie tej zmiennej losowej jest równe (bezwarunkowemu) prawdopodobieństwu,

co jest przykładem prawa całkowitego prawdopodobieństwa E ( P ( A | X ) ) = P ( A ).

Interpretacja

Prawdopodobieństwo warunkowe P ( Y ≤ 0,75 | X = 0,5 ) nie może być interpretowane jako P ( Y ≤ 0,75, X = 0,5 ) / P ( X = 0,5 ), ponieważ to drugie daje 0/0. W związku z tym P ( Y ≤ 0,75 | X = 0,5 ) nie może być interpretowane za pomocą częstotliwości empirycznych, ponieważ dokładna wartość X = 0,5 nie ma szans na pojawienie się losowo, ani razu podczas nieskończonej sekwencji niezależnych prób.

Prawdopodobieństwo warunkowe można interpretować jako granicę,

Oczekiwanie warunkowe

Warunkowe oczekiwanie E ( Y | X = 0,5 ) jest mało interesujące; znika po prostu przez symetrię. Bardziej interesujące jest obliczenie E ( | Z | | X = 0,5 ) traktując | Z | jako funkcja X , Y :

Bardziej ogólnie,

dla −1 < x < 1. Warunkową wartość oczekiwaną można też traktować jako zmienną losową, — funkcję zmiennej losowej X , a mianowicie:

Oczekiwanie tej zmiennej losowej jest równe (bezwarunkowemu) oczekiwaniu | Z |,

mianowicie,

co jest przykładem prawa całkowitego oczekiwania E ( E ( Y | X ) ) = E ( Y ).

Zmienna losowa E(| Z | | X ) jest najlepszym predyktorem | Z | dany X. _ Oznacza to, że minimalizuje błąd średniokwadratowy E ( | Z | - f ( X ) ) 2 na klasie wszystkich zmiennych losowych postaci f ( X ). Podobnie jak w przypadku dyskretnym, E ( | Z | | g ( X ) ) = E ( | Z | | X ) dla każdej mierzalnej funkcji g , która jest jeden do jednego na (-1,1).

Dystrybucja warunkowa

Biorąc pod uwagę X = x, rozkład warunkowy Y , dany przez gęstość f Y | X = x (y), to (przeskalowany) rozkład arcsin; jego skumulowana funkcja dystrybucji wynosi

dla wszystkich x i y takich, że x 2 + y 2 < 1. Odpowiednie oczekiwanie h ( x , Y ) jest niczym innym jak oczekiwaniem warunkowym E ( h ( X , Y ) | X = x ). Mieszanina tych warunkowych rozkładów, wzięta dla wszystkich x ( zgodnie z rozkładem X ) jest bezwarunkowym rozkładem Y . Fakt ten sprowadza się do równości

ten ostatni jest przykładem prawa całkowitego prawdopodobieństwa wspomnianego powyżej .

Czym kondycjonowanie nie jest

Na poziomie dyskretnym warunkowanie jest możliwe tylko wtedy, gdy warunek ma niezerowe prawdopodobieństwo (nie można dzielić przez zero). Na poziomie gęstości warunkowanie na X = x jest możliwe, mimo że P ( X = x ) = 0. Ten sukces może stworzyć złudzenie, że warunkowanie jest zawsze możliwe. Niestety tak nie jest, z kilku powodów przedstawionych poniżej.

Intuicja geometryczna: ostrożność

Wynik P ( Y ≤ 0,75 | X = 0,5 ) = 5/6, wspomniany powyżej, jest geometrycznie oczywisty w następującym sensie. Punkty ( x , y , z ) kuli x 2 + y 2 + z 2 = 1, spełniające warunek x = 0,5, są okręgiem y 2 + z 2 = 0,75 o promieniu na płaszczyźnie x = 0,5. Nierówność y ≤ 0,75 zachodzi na łuku. Długość łuku wynosi 5/6 długości koła, dlatego prawdopodobieństwo warunkowe wynosi 5/6.

To udane wyjaśnienie geometryczne może stworzyć złudzenie, że następujące pytanie jest trywialne.

Punkt danej kuli wybierany jest losowo (jednolicie). Biorąc pod uwagę, że punkt leży na danej płaszczyźnie, jaki jest jego rozkład warunkowy?

Może się wydawać oczywiste, że rozkład warunkowy musi być jednorodny na danym okręgu (przecięciu danej sfery i danej płaszczyzny). Czasami rzeczywiście tak jest, ale generalnie tak nie jest. W szczególności Z jest rozłożone równomiernie na (-1,+1) i niezależnie od stosunku Y / X , zatem P ( Z ≤ 0,5 | Y / X ) = 0,75. Z drugiej strony nierówność z ≤ 0,5 zachodzi na łuku koła x 2 + y 2 + z 2 = 1, y = cx (dla dowolnego c ). Długość łuku wynosi 2/3 długości koła. Jednak prawdopodobieństwo warunkowe wynosi 3/4, a nie 2/3. Jest to przejaw klasycznego paradoksu Borela.

Odwołania do symetrii mogą być mylące, jeśli nie zostaną sformalizowane jako argumenty niezmienności.

Pollard

Inny przykład. Losowy obrót przestrzeni trójwymiarowej to obrót o losowy kąt wokół losowej osi. Intuicja geometryczna podpowiada, że ​​kąt jest niezależny od osi i równomiernie rozłożony. Jednak to drugie jest błędne; małe wartości kąta są mniej prawdopodobne.

Procedura ograniczająca

Biorąc pod uwagę zdarzenie B o zerowym prawdopodobieństwie, wzór jest bezużyteczne, jednak można spróbować dla odpowiedniej sekwencji zdarzeń B n o niezerowym prawdopodobieństwie, tak że b n b (to znaczy i ). Jeden przykład podano powyżej . Dwa kolejne przykłady to most Browna i wycieczka Browna .

W dwóch ostatnich przykładach prawo całkowitego prawdopodobieństwa jest nieistotne, ponieważ dane jest tylko jedno zdarzenie (warunek). Z kolei w powyższym przykładzie obowiązuje prawo całkowitego prawdopodobieństwa , ponieważ zdarzenie X = 0,5 należy do rodziny zdarzeń X = x , gdzie x przebiega przez (−1,1), a zdarzenia te stanowią część prawdopodobieństwa przestrzeń.

Aby uniknąć paradoksów (takich jak paradoks Borela ), należy wziąć pod uwagę następujące ważne rozróżnienie. Jeśli dane zdarzenie ma niezerowe prawdopodobieństwo, to uwarunkowanie od niego jest dobrze zdefiniowane (niezależnie od jakichkolwiek innych zdarzeń), jak zauważono powyżej . Z drugiej strony, jeśli dane zdarzenie ma zerowe prawdopodobieństwo, to warunkowanie na nim jest źle zdefiniowane, chyba że podano dodatkowe dane wejściowe. Zły wybór tego dodatkowego wejścia prowadzi do błędnych prawdopodobieństw warunkowych (oczekiwania, rozkłady). W tym sensie „ pojęcie prawdopodobieństwa warunkowego w odniesieniu do pojedynczej hipotezy, której prawdopodobieństwo jest równe 0, jest niedopuszczalne ” ( Kołmogorow ) .

Dodatkowym wejściem może być (a) symetria (grupa niezmienności); ( b ) ciąg zdarzeń Bn taki, że Bn B , P ( Bn ) > 0; (c) partycja zawierająca dane zdarzenie. Warunkowanie oparte na teorii miary (poniżej) bada przypadek (c), ujawnia jego związek z (b) ogólnie iz (a), gdy ma to zastosowanie.

Niektóre zdarzenia o zerowym prawdopodobieństwie są poza zasięgiem warunkowania. Przykład: niech X n będzie niezależnymi zmiennymi losowymi o rozkładzie jednorodnym na (0,1), a B zdarzeniem X n → 0 as n → ∞”; co z P ( X n < 0,5 | B )? Czy ma tendencję do 1, czy nie? Inny przykład: niech X będzie zmienną losową o rozkładzie równomiernym na (0,1), a B zdarzeniem „ X jest liczbą wymierną”; co z P ( X = 1/ n | B ) ? Jedyną odpowiedzią jest to, że po raz kolejny

pojęcie prawdopodobieństwa warunkowego w odniesieniu do hipotezy izolowanej, której prawdopodobieństwo jest równe 0, jest niedopuszczalne.

Kołmogorow

Uwarunkowania na poziomie teorii miary

Przykład . Niech Y będzie zmienną losową o rozkładzie jednostajnym na (0,1) i X = f ( Y ), gdzie f jest daną funkcją. Poniżej omówiono dwa przypadki: f = f 1 i f = f 2 , gdzie f 1 jest ciągłą odcinkowo-liniową funkcją

a f2 jest funkcją Weierstrassa .

Intuicja geometryczna: ostrożność

Biorąc pod uwagę X = 0,75, możliwe są dwie wartości Y , 0,25 i 0,5. Może się wydawać oczywiste, że obie wartości mają warunkowe prawdopodobieństwo 0,5 tylko dlatego, że jeden punkt jest przystający do innego punktu. Jest to jednak złudzenie; patrz poniżej.

Warunkowe prawdopodobieństwo

Prawdopodobieństwo warunkowe P ( Y ≤ 1/3 | X ) można określić jako najlepszy predyktor wskaźnika

dany X. _ Oznacza to, że minimalizuje błąd średniokwadratowy E ( I - g ( X ) ) 2 na klasie wszystkich zmiennych losowych postaci g ( X ).

W przypadku f = f 1 odpowiednią funkcję g = g 1 można obliczyć jawnie,

Alternatywnie można zastosować procedurę ograniczającą,

dając ten sam wynik.

Zatem P. ( Y ≤ 1/3 | X ) = g 1 ( X ). Wartość oczekiwana tej zmiennej losowej jest równa (bezwarunkowemu) prawdopodobieństwu, E ( P ( Y ≤ 1/3 | X ) ) = P ( Y ≤ 1/3 ), a mianowicie:

co jest przykładem prawa całkowitego prawdopodobieństwa E ( P ( A | X ) ) = P ( A ).

W przypadku f = f 2 odpowiednia funkcja g = g 2 prawdopodobnie nie może być obliczona wprost. Niemniej jednak istnieje i można go obliczyć numerycznie. Rzeczywiście, przestrzeń L 2 (Ω) wszystkich zmiennych losowych całkowalnych do kwadratu jest przestrzenią Hilberta ; wskaźnik I jest wektorem tej przestrzeni; a zmienne losowe postaci g ( X ) są (zamkniętą, liniową) podprzestrzenią. Rzut ortogonalny tego wektora na tę podprzestrzeń jest dobrze zdefiniowany. Można to obliczyć numerycznie, stosując przybliżenia skończonych wymiarów do nieskończenie wymiarowej przestrzeni Hilberta.

Ponownie, wartość oczekiwana zmiennej losowej P ( Y ≤ 1/3 | X ) = g 2 ( X ) jest równa (bezwarunkowemu) prawdopodobieństwu, E ( P ( Y ≤ 1/3 | X ) ) = P ( Y ≤ 1/3 ), a mianowicie

Jednak podejście przestrzenne Hilberta traktuje g 2 raczej jako klasę równoważności funkcji niż pojedynczą funkcję. Mierzalność g 2 jest zapewniona, ale ciągłość (lub nawet całkowalność Riemanna ) nie. Wartość g 2 (0,5) jest określona jednoznacznie, ponieważ punkt 0,5 jest atomem rozkładu X . Inne wartości x nie są atomami, więc odpowiednie wartości g 2 ( x ) nie są określone jednoznacznie. Ponownie, „ pojęcie prawdopodobieństwa warunkowego w odniesieniu do pojedynczej hipotezy, której prawdopodobieństwo jest równe 0, jest niedopuszczalne ” ( Kołmogorow .

Alternatywnie, tę samą funkcję g (czy to g 1, czy g 2 ) można zdefiniować jako pochodną Radona-Nikodyma

gdzie miary μ, ν są określone przez

dla wszystkich zbiorów Borela Oznacza to, że μ to (bezwarunkowy) rozkład X , podczas gdy ν to jedna trzecia jego rozkładu warunkowego,

Oba podejścia (poprzez przestrzeń Hilberta i pochodną Radona-Nikodyma) traktują g jako klasę równoważności funkcji; dwie funkcje g i g′ są traktowane jako równoważne, jeśli g ( X ) = g′ ( X ) prawie na pewno. W związku z tym prawdopodobieństwo warunkowe P ( Y ≤ 1/3 | X ) jest traktowane jako klasa równoważności zmiennych losowych; jak zwykle, dwie zmienne losowe są traktowane jako równoważne, jeśli są prawie na pewno równe.

Oczekiwanie warunkowe

Warunkowe Y przy danym X . błąd średniokwadratowy w klasie wszystkich zmiennych losowych postaci h ^ X ).

W przypadku f = f 1 odpowiednią funkcję h = h 1 można obliczyć jawnie,

Alternatywnie można zastosować procedurę ograniczającą,

dając ten sam wynik.

Zatem Oczekiwanie tej zmiennej losowej jest równe oczekiwaniu (bezwarunkowemu), ,

co jest przykładem prawa całkowitego oczekiwania

W przypadku f = f 2 odpowiednia funkcja h = h 2 prawdopodobnie nie może być obliczona jawnie. Niemniej jednak istnieje i może być obliczona numerycznie w taki sam sposób jak g 2 powyżej — jako rzut ortogonalny w przestrzeni Hilberta. Prawo całkowitego oczekiwania obowiązuje, ponieważ projekcja nie może zmienić iloczynu skalarnego o stałą 1 należącą do podprzestrzeni.

Alternatywnie tę samą funkcję h (czy to h 1 czy h 2 ) można zdefiniować jako pochodną Radona-Nikodyma

gdzie miary μ, ν są określone przez

dla wszystkich zbiorów Borela Tutaj jest ograniczonym oczekiwaniem, którego nie należy mylić z oczekiwaniem warunkowym

Dystrybucja warunkowa

W przypadku f = f 1 warunkową dystrybucję skumulowaną można obliczyć jawnie, podobnie jak g 1 . Procedura ograniczająca daje:

co nie może być poprawne, ponieważ skumulowana dystrybucja musi być prawostronnie ciągła !

Ten paradoksalny wynik wyjaśnia teoria miary w następujący sposób. Dla danego y odpowiada dobrze -zdefiniowany (poprzez przestrzeń Hilberta lub pochodną Radona-Nikodyma) jako klasa równoważności funkcji (z x ). Traktowana jako funkcja y dla danego x jest źle zdefiniowana, chyba że podano dodatkowe dane wejściowe. Mianowicie, funkcja (od x ) musi być wybrana w obrębie każdej (lub przynajmniej prawie każdej) klasy równoważności. Zły wybór prowadzi do błędnych warunkowych skumulowanych funkcji dystrybucji.

Właściwego wyboru można dokonać w następujący sposób. Po pierwsze, uwagę tylko dla liczb wymiernych y . (Równie dobrze można użyć dowolnego innego gęstego policzalnego zbioru). Zatem używany jest tylko policzalny zbiór klas równoważności; wszystkie wybory funkcji w ramach tych klas są wzajemnie równoważne, a odpowiadająca im funkcja wymiernego y jest dobrze zdefiniowana (dla prawie każdego x ). Po drugie, funkcja jest rozszerzana od liczb wymiernych do liczb rzeczywistych przez właściwą ciągłość.

Na ogół rozkład warunkowy jest definiowany dla prawie wszystkich x (zgodnie z rozkładem X ), ale czasami wynik jest ciągły w x , w którym to przypadku dopuszczalne są indywidualne wartości. W rozważanym przykładzie tak jest; poprawny wynik dla x = 0,75,

pokazuje, że warunkowy rozkład Y przy danym X = 0,75 składa się z dwóch atomów, przy 0,25 i 0,5, o prawdopodobieństwie odpowiednio 1/3 i 2/3.

Podobnie rozkład warunkowy można obliczyć dla wszystkich x w (0, 0,5) lub (0,5, 1).

Wartość x = 0,5 jest atomem rozkładu X , zatem odpowiedni rozkład warunkowy jest dobrze zdefiniowany i można go obliczyć metodami elementarnymi (mianownik nie znika); warunkowy rozkład Y przy danym X = 0,5 jest jednorodny na (2/3, 1). Teoria miary prowadzi do tego samego wyniku.

Mieszanka wszystkich rozkładów warunkowych jest (bezwarunkowym) rozkładem Y .

Oczekiwanie warunkowego

W przypadku f = f 2 odpowiedni może być obliczona jawnie. Dla danego y jest dobrze zdefiniowany (poprzez przestrzeń Hilberta lub pochodną Radona-Nikodyma) jako klasa równoważności funkcji (z x ). Właściwego wyboru funkcji w ramach tych klas równoważności można dokonać jak powyżej; prowadzi to do poprawnych warunkowych funkcji dystrybucji skumulowanej, a więc do rozkładów warunkowych. Ogólnie rzecz biorąc, rozkłady warunkowe nie muszą być atomowe ani absolutnie ciągłe (ani mieszaniny obu typów). Prawdopodobnie w rozpatrywanym przykładzie są one pojedyncze (podobnie jak rozkład Cantora ).

Ponownie, mieszanina wszystkich rozkładów warunkowych jest rozkładem (bezwarunkowym), a oczekiwanie warunkowe jest oczekiwaniem w odniesieniu do rozkładu warunkowego.

Szczegóły techniczne

  1. ^ Dowód:
    ( 1− a ) 2 + 2 a 2 jest minimalne przy a = 1/3.
  2. ^ Dowód:
    pozostaje zauważyć, że
    przy i jest minimalne przy

Zobacz też

Notatki