Pole prawdopodobieństwa

A continuous p-box depicted as a graph with abscissa labeled X and ordinate labeled Probability
P-box (skrzynka prawdopodobieństwa).

Pole prawdopodobieństwa ( lub p-box ) to charakterystyka liczb niepewnych, składająca się zarówno z niepewności aleatorycznej, jak i epistemicznej, często używana w analizie ryzyka lub ilościowym modelowaniu niepewności , gdy należy przeprowadzić obliczenia numeryczne . Analiza granic prawdopodobieństwa służy do wykonywania obliczeń arytmetycznych i logicznych za pomocą p-boxów.

Przykładowy p-box pokazano na rysunku po prawej stronie dla niepewnej liczby x składającej się z lewej (górnej) i prawej (dolnej) granicy rozkładu prawdopodobieństwa x . Granice są zbieżne dla wartości x poniżej 0 i powyżej 24. Granice mogą mieć niemal dowolny kształt, łącznie z funkcjami schodkowymi, pod warunkiem, że rosną monotonicznie i nie przecinają się. P-box służy do wyrażenia jednocześnie niepewności (niepewności epistemicznej), która jest reprezentowana przez szerokość między lewą i prawą krawędzią p-boxa oraz zmienności (niepewność aleatoryczna), która jest reprezentowana przez ogólne nachylenie p-boxa -skrzynka.

Interpretacja

p-box with dotted lines showing probability interval associated with an x-value
Prawdopodobieństwo, że x wynosi 2,5 lub mniej, wynosi od 4% do 36%
P-box with dotted lines showing interval 95th percentile
95. percentyl mieści się w przedziale od 9 do 16
Podwójna interpretacja p-boxów

Istnieją podwójne interpretacje p-boxu. Można to rozumieć jako granice skumulowanego prawdopodobieństwa związanego z dowolną wartością x . Na przykład w polu p przedstawionym po prawej stronie prawdopodobieństwo, że wartość będzie wynosić 2,5 lub mniej, wynosi od 4% do 36%. Pudełko p można również rozumieć jako granice wartości x na dowolnym określonym poziomie prawdopodobieństwa. W tym przykładzie 95. percentyl z pewnością mieści się w przedziale od 9 do 16.

Jeśli lewa i prawa granica p-boxa z pewnością obejmują nieznany rozkład, granice te nazywamy rygorystycznymi lub absolutnymi. Granice mogą być również najściślejszymi możliwymi granicami funkcji rozkładu, biorąc pod uwagę dostępne informacje na jej temat, w którym to przypadku granice uważa się za najlepsze z możliwych . Jednak często może się zdarzyć, że nie każdy rozkład mieszczący się w tych granicach jest możliwym rozkładem dla liczby niepewnej, nawet jeśli granice są rygorystyczne i najlepsze z możliwych.

Definicja matematyczna

P-boxy są określone przez lewą i prawą granicę funkcji rozkładu (lub, równoważnie, funkcji przeżycia ) wielkości oraz, opcjonalnie, dodatkowych informacji ograniczających średnią i wariancję wielkości do określonych przedziałów oraz określonych ograniczeń kształtu jej rozkładu ( rodzina, unimodalność , symetria itp.). P-box reprezentuje klasę rozkładów prawdopodobieństwa zgodnych z tymi ograniczeniami.

Funkcja rozkładu rzeczywistych jest funkcją dla : który D ( x ) ≤ D ( y ) kiedykolwiek x < y , a granica D w +∞ wynosi 1, a granica w −∞ wynosi 0. P-box jest zbiorem funkcji rozkładu F spełniające następujące ograniczenia, dla określonych funkcji rozkładu F F i określonych granic m 1 m 2 na wartość oczekiwaną rozkładu oraz określonych granic v 1 v 2 na wariancję rozkładu.

gdzie całki postaci całkami Riemanna – Stieltjesa .

Zatem ograniczenia są takie, że funkcja rozkładu F mieści się w określonych granicach, średnia rozkładu znajduje się w przedziale m , wariancja rozkładu mieści się w przedziale v , a rozkład mieści się w pewnej dopuszczalnej klasie rozkładów F. Całki Riemanna – Stieltjesa nie zależą od różniczkowalności F .

zmiennych losowych tę samą rolę , jaką pełnią górne i dolne prawdopodobieństwa dla zdarzeń . W solidnej analizie Bayesa p-box jest również znany jako pasmo dystrybucji. P - box można skonstruować jako zamknięte sąsiedztwo rozkładu metryką , Lévy'ego lub P-box to prymitywny, ale wygodny obliczeniowo rodzaj zestawu uprawnień . Podczas gdy zbiór uprawnień jest zdefiniowany wyłącznie w kategoriach ograniczenia F jako wypukły zbiór rozkładów (które automatycznie określają F , F , m i v , ale często są bardzo trudne do obliczenia), p-box ma zwykle luźno ograniczająca specyfikacja F lub nawet brak ograniczeń, tak że fa = \ Obliczenia za pomocą p-boxów, w przeciwieństwie do zbiorów uprawnień, są często dość wydajne i znane są algorytmy dla wszystkich standardowych funkcji matematycznych.

P-box jest minimalnie określony przez jego lewą i prawą granicę, w którym to przypadku inne ograniczenia są rozumiane jako puste jako Nawet jeśli te ograniczenia pomocnicze są puste, nadal mogą istnieć nietrywialne granice średniej i wariancji, które można wywnioskować z lewej i prawej krawędzi p-boxa.

Skąd pochodzą p-boxy

P-boxy mogą wynikać z różnego rodzaju niekompletnych informacji o ilości i istnieje kilka sposobów uzyskania p-boxów na podstawie danych i oceny analitycznej.

P-boxy dystrybucyjne

Kiedy wiadomo, że rozkład prawdopodobieństwa ma określony kształt (np. normalny, jednorodny, beta, Weibulla itp.), ale jego parametry można określić jedynie nieprecyzyjnie w postaci przedziałów, wynik nazywa się p-boxem rozkładu lub czasami parametrycznym p-box. Taki p-box jest zwykle łatwy do uzyskania poprzez otoczenie ekstremalnych rozkładów, biorąc pod uwagę możliwe parametry. Na przykład, jeśli wiadomo, że wielkość jest normalna ze średnią gdzieś w przedziale [7,8] i odchyleniem standardowym w przedziale [1,2], lewą i prawą krawędź p-boxa można znaleźć poprzez obwiedzenie funkcje rozkładu czterech rozkładów prawdopodobieństwa, mianowicie normalnego (7,1), normalnego (8,1), normalnego (7,2) i normalnego (8,2), gdzie normalny (μ, σ) reprezentuje rozkład normalny z średnia μ i odchylenie standardowe σ. Wszystkie rozkłady prawdopodobieństwa, które są normalne i mają średnie i odchylenia standardowe w tych odpowiednich przedziałach, będą miały funkcje rozkładu, które całkowicie mieszczą się w tym p-boxie. Lewa i prawa granica obejmują wiele rozkładów innych niż normalne, ale można je wykluczyć z p-boxu, określając normalność jako rodzinę rozkładów.

P-boxy bez dystrybucji

Nawet jeśli parametry takie jak średnia i wariancja rozkładu są dokładnie znane, rozkładu nie można dokładnie określić, jeśli nie jest znana rodzina rozkładów. W takiej sytuacji obwiednie wszystkich rozkładów pasujących do zadanych momentów można zbudować z nierówności np. Markowa , Czebyszewa , Cantellego czy Rowe’a, które obejmują wszystkie funkcje rozkładu o określonych parametrach. Definiują one p-boxy wolne od dystrybucji, ponieważ nie przyjmują żadnych założeń na temat rodziny ani kształtu niepewnego rozkładu. Kiedy dostępne są informacje jakościowe, np. dotyczące dystrybucji unimodalne , p-boxy często można znacznie dokręcić.

P-boxy z nieprecyzyjnych pomiarów

Kiedy można zmierzyć wszystkich członków populacji lub gdy jest dużo danych z próby losowej, analitycy często używają rozkładu empirycznego do podsumowania wartości. Jeżeli dane te mają nieistotną niepewność pomiaru reprezentowaną przez zakresy przedziałów wokół wartości każdej próbki, rozkład empiryczny można uogólnić na p-box. Taki p-box można określić poprzez kumulację dolnych punktów końcowych wszystkich pomiarów przedziałów w skumulowany rozkład tworzący lewą krawędź p-boxu i kumulację górnych punktów końcowych, aby utworzyć prawą krawędź. Im szersza niepewność pomiaru, tym szerszy wynikowy p-box.

Pomiary interwałowe można również wykorzystać do uogólnienia szacunków rozkładu w oparciu o metodę dopasowywania momentów lub maksymalnego prawdopodobieństwa , które przyjmują założenia dotyczące kształtu, takie jak normalność lub lognormalność itp. Chociaż niepewność pomiaru można traktować rygorystycznie, wynikowy p-box rozkładu generalnie nie będzie rygorystyczny, jeśli jest to szacunkowa próba oparta jedynie na podpróbce możliwych wartości. Ponieważ jednak obliczenia te uwzględniają zależność między parametrami rozkładu, często dadzą węższe p-boxy, niż można by to uzyskać, traktując estymatory przedziałów parametrów jako niepowiązane, jak ma to miejsce w przypadku rozkładowych p-boxów.

Opaski zaufania

Niepewność co do kształtu rozkładu prawdopodobieństwa może wynikać z małej wielkości próby charakteryzującej go danych empirycznych. Zaproponowano kilka metod tradycyjnych statystyk, aby uwzględnić tę niepewność próbkowania dotyczącą kształtu rozkładu, w tym Kołmogorowa – Smirnowa i podobne przedziały ufności , które są wolne od rozkładu w tym sensie, że nie przyjmują żadnych założeń co do kształtu rozkładu bazowego. Istnieją powiązane metody przedziałów ufności, które faktycznie przyjmują założenia dotyczące kształtu lub rodziny rozkładu bazowego, co często może skutkować węższymi pasmami ufności. Konstruowanie przedziałów ufności wymaga wybrania prawdopodobieństwa określającego poziom ufności, który zwykle musi być mniejszy niż 100%, aby wynik był niepusty. Przedziały ufności na poziomie ufności (1 - α)% są zdefiniowane w taki sposób, że (1 - α)% czasu ich konstruowania całkowicie obejmują rozkład, z którego losowo pobrano dane. Przedział ufności dotyczący funkcji rozkładu jest czasami używany jako p-box, nawet jeśli reprezentuje on granice statystyczne, a nie rygorystyczne lub pewne. To użycie domyślnie zakłada, że ​​prawdziwy rozkład, jakikolwiek by nie był, znajduje się wewnątrz p-boxa.

Analogiczna struktura bayesowska nazywana jest Bayesowskim p-boxem i obejmuje wszystkie rozkłady posiadające parametry w podzbiorze przestrzeni parametrów odpowiadającym pewnemu określonemu poziomowi prawdopodobieństwa z analizy bayesowskiej danych. Ten podzbiór jest obszarem wiarygodnym dla parametrów, biorąc pod uwagę dane, który można zdefiniować jako obszar najwyższej późniejszej gęstości prawdopodobieństwa, obszar najniższej późniejszej straty lub w inny odpowiedni sposób. Aby skonstruować p-box Bayesa, oprócz określenia poziomu wiarygodności (analogicznie do poziomu ufności) należy wybrać wcześniejszy rozkład.

C-boxy

C-boxy (lub struktury ufności) to estymatory stałych wielkości o wartościach rzeczywistych, które zależą od losowych danych z próbek i kodują przedziały ufności Neymana na każdym poziomie ufności. Charakteryzują one niepewność wnioskowania co do oszacowania w postaci zbioru przedziałów ogniskowych (lub zbiorów), z których każdy ma powiązaną masę ufności (prawdopodobieństwa). Zbiór ten można przedstawić jako p-box i można rzutować interpretację ufności poprzez analizę granic prawdopodobieństwa .

W przeciwieństwie do tradycyjnych przedziałów ufności, których zwykle nie można propagować za pomocą obliczeń matematycznych, c-boxy można stosować w obliczeniach w sposób, który pozwala zachować możliwość uzyskania dowolnych przedziałów ufności dla wyników. Można ich na przykład użyć do obliczenia pól prawdopodobieństwa zarówno dla rozkładów przewidywań, jak i tolerancji.

C-boxy można obliczyć na wiele sposobów bezpośrednio na podstawie losowych danych próbki. Istnieją pola ufności zarówno dla problemów parametrycznych, w których znana jest rodzina rozkładu bazowego, z którego losowo wygenerowano dane (w tym rozkład normalny, lognormalny, wykładniczy, Bernoulliego, dwumianowy, Poissona), jak i problemów nieparametrycznych, w których kształt rozkładu bazowego jest nieznany. Pola ufności uwzględniają niepewność parametru wynikającą z wniosków z obserwacji, w tym wpływ małej liczebności próby, ale także potencjalnie skutki niedokładności danych i niepewności demograficznej, która wynika z próby scharakteryzowania parametru ciągłego na podstawie danych dyskretnych obserwacje.

C-boxy są ściśle powiązane z kilkoma innymi koncepcjami. Są one porównywalne z rozkładami bootstrapowymi i stanowią nieprecyzyjne uogólnienia tradycyjnych rozkładów ufności, takich jak rozkład t - Studenta . Podobnie jak c-boxy kodują częste przedziały ufności dla interesujących parametrów na każdym poziomie ufności. Są one analogiczne do rozkładów tylnych Bayesa w tym sensie, że charakteryzują niepewność wnioskowania dotyczącą parametrów statystycznych oszacowanych na podstawie rzadkich lub nieprecyzyjnych danych próbki, ale mogą mieć czysto częstotystyczną interpretację, która czyni je użytecznymi w inżynierii, ponieważ zapewniają gwarancję wydajności statystycznej poprzez wielokrotne użycie. W przypadku parametru Bernoulliego lub współczynnika dwumianu, c-box jest matematycznie równoważny nieprecyzyjnemu modelowi beta Walleya z parametrem s = 1, co stanowi szczególny przypadek nieprecyzyjnego procesu Dirichleta , będącego główną ideą solidnej analizy Bayesa .

W przeciwieństwie do pasm ufności , które są granicami ufności dla całej funkcji rozkładu na pewnym określonym poziomie ufności, c-boxy kodują przedziały ufności wokół ustalonej wielkości na wszystkich możliwych poziomach ufności jednocześnie.

Koperty z możliwymi dystrybucjami

Kiedy istnieje wiele możliwych rozkładów prawdopodobieństwa, które mogą opisywać zmienną, a analityk nie może zdyskontować żadnego z nich na podstawie dostępnych informacji, można skonstruować p-box jako obwiednię różnych skumulowanych rozkładów. Możliwe jest również wyjaśnienie niepewności co do tego, który rozkład jest prawidłowy, za pomocą badania wrażliwości, ale takie badania stają się bardziej złożone w miarę wzrostu liczby możliwych rozkładów, a kombinatorycznie bardziej złożone w miarę liczby zmiennych, co do których można podać wiele zmiennych dystrybucje rosną. Podejście obejmujące jest bardziej konserwatywne w odniesieniu do tej niepewności niż różne alternatywne podejścia do radzenia sobie z niepewnością, które uśredniają razem rozkłady w modelach mieszanin stochastycznych lub średnich modeli bayesowskich. Nieznany prawdziwy rozkład prawdopodobnie będzie należeć do klasy rozkładów objętych p-boxem. Natomiast zakładając, że rozkład prawdziwy jest jednym z rozkładów uśrednianych, rozkład średni z pewnością będzie się różnić od nieznanego rozkładu prawdziwego.

P-boxy z wyników obliczeń

P-boxy mogą powstać w wyniku obliczeń obejmujących rozkłady prawdopodobieństwa lub obejmujących zarówno rozkład prawdopodobieństwa, jak i przedział, lub obejmujących inne p-boxy. Na przykład suma ilości reprezentowanej przez rozkład prawdopodobieństwa i ilości reprezentowanej przez przedział będzie ogólnie charakteryzowana przez p-box. Suma dwóch zmiennych losowych charakteryzujących się dobrze określonymi rozkładami prawdopodobieństwa jest kolejnym precyzyjnym rozkładem prawdopodobieństwa, zwykle tylko wtedy, gdy kopuła (funkcja zależności) pomiędzy dwoma sumami jest całkowicie określona. Gdy ich zależność jest nieznana lub określona tylko częściowo, suma będzie bardziej odpowiednio reprezentowana przez p-box, ponieważ różne relacje zależności prowadzą do wielu różnych rozkładów sumy. Kołmogorow pierwotnie pytano, jakie można wyznaczyć granice rozkładu sumy, skoro nic nie wiadomo na temat zależności między rozkładami dodatków. Odpowiedź na to pytanie uzyskano dopiero na początku lat 80. Od tego czasu wzory i algorytmy na sumy zostały uogólnione i rozszerzone na różnice, iloczyny, ilorazy i inne funkcje binarne i jednoargumentowe przy różnych założeniach zależności.

Metody te, zwane łącznie analizą granic prawdopodobieństwa , zapewniają algorytmy do oceny wyrażeń matematycznych, gdy istnieje niepewność co do wartości wejściowych, ich zależności, a nawet formy samego wyrażenia matematycznego. Obliczenia dają wyniki gwarantujące uwzględnienie wszystkich możliwych rozkładów zmiennej wyjściowej, jeśli wejściowe p-boxy również uwzględnią swoje odpowiednie rozkłady. W niektórych przypadkach obliczony p-box będzie również najlepszym możliwym w tym sensie, że tylko możliwe dystrybucje mieszczą się w p-boxie, ale nie zawsze jest to gwarantowane. Na przykład zbiór rozkładów prawdopodobieństwa, który mógłby powstać w wyniku dodania wartości losowych bez założenia niezależności od dwóch (dokładnych) rozkładów, jest generalnie podzbiorem właściwym wszystkich rozkładów dopuszczonych przez obliczony p-box. Oznacza to, że w wyjściowym p-boxie znajdują się rozkłady, które nie mogłyby powstać w przypadku jakiejkolwiek zależności pomiędzy dwoma rozkładami wejściowymi. Wyjściowy p-box będzie jednak zawsze zawierał wszystkie możliwe rozkłady, o ile wejściowe p-boxy będą zawierały odpowiednie rozkłady bazowe. Właściwość ta często wystarcza do wykorzystania w analizie ryzyka .

Specjalne przypadki

Dokładne rozkłady prawdopodobieństwa i przedziały są szczególnymi przypadkami p-boxów, podobnie jak wartości rzeczywiste i liczby całkowite . Ponieważ rozkład prawdopodobieństwa wyraża zmienność i brakuje mu niepewności, lewa i prawa granica jego p-boxu pokrywają się dla wszystkich x przy wartości dystrybuanty (która jest funkcją niemalejącą od zera do jeden). Matematycznie rozkład prawdopodobieństwa F jest zdegenerowanym p-boxem { F , F , E ( F ), V ( F ), F }, gdzie E i V oznaczają operatory oczekiwań i wariancji. Przedział wyraża jedynie niepewność. Jego p-box wygląda jak prostokąt, którego górna i dolna granica przeskakuje od zera do jednego w punktach końcowych przedziału. Matematycznie przedział [ za , b ] odpowiada zdegenerowanemu p-boxowi {H ( a ), H ( b ), [ za , b ], [0, ( b - a ) 2/4 ], }, gdzie H oznacza Funkcja kroku Heaviside’a . Dokładnej liczbie skalarnej c brakuje obu rodzajów niepewności. Jego p-box jest po prostu funkcją schodkową od 0 do 1 przy wartości c ; matematycznie jest to {H( do ), H( do ), do , 0, H( do )}.

Aplikacje

P-boxy i analiza granic prawdopodobieństwa zostały wykorzystane w wielu zastosowaniach obejmujących wiele dyscyplin inżynierii i nauk o środowisku, w tym:

Krytyka

Brak struktury wewnętrznej . Ponieważ p-box zachowuje niewiele informacji o jakiejkolwiek wewnętrznej strukturze w granicach, nie wyjaśnia, które rozkłady w p-boxie są najbardziej prawdopodobne, ani czy krawędzie reprezentują bardzo mało prawdopodobne lub wyraźnie prawdopodobne scenariusze. W niektórych przypadkach może to skomplikować decyzje, jeśli krawędź p-boxu obejmuje próg decyzyjny.

Gubi informacje . Aby osiągnąć wydajność obliczeniową, p-boxy tracą informacje w porównaniu z bardziej złożonymi strukturami Dempstera – Shafera lub zbiorami poświadczeń . W szczególności p-boxy tracą informację o trybie (najbardziej prawdopodobnej wartości) wielkości. Zachowanie tej informacji może być przydatne, szczególnie w sytuacjach, gdy ilość jest nieznaną, ale stałą wartością.

Tradycyjne prawdopodobieństwo wystarczające . Niektórzy krytycy p-boxów argumentują, że precyzyjnie określone rozkłady prawdopodobieństwa wystarczą do scharakteryzowania wszelkiego rodzaju niepewności. Na przykład Lindley stwierdził: „Bez względu na to, w jaki sposób podchodzi się do niepewności, jedynym rozsądnym sposobem myślenia o niepewności jest prawdopodobieństwo”. Krytycy ci argumentują, że mówienie o „niepewności co do prawdopodobieństwa” i o tym tradycyjnym prawdopodobieństwie nie ma sensu jest kompletną teorią, która jest wystarczająca do scharakteryzowania wszystkich form niepewności. Pod wpływem tej krytyki użytkownicy p-boxów po prostu nie podjęli wymaganego wysiłku, aby zidentyfikować odpowiednie, precyzyjnie określone funkcje dystrybucji.

Teoria możliwości może działać lepiej . Niektórzy krytycy twierdzą, że w niektórych przypadkach ma sens praca z możliwości , zamiast pracować oddzielnie z lewą i prawą krawędzią p-boxów. Twierdzą, że zbiór rozkładów prawdopodobieństwa indukowany rozkładem możliwości jest podzbiorem tych zamkniętych przez analogiczne krawędzie p-boxa. Inni stawiają kontrargument, że nie można zrobić lepiej z rozkładem możliwości niż z p-boxem.

Zobacz też

Dodatkowe referencje