W matematycznej teorii prawdopodobieństwa proces Wienera , nazwany na cześć Norberta Wienera , jest procesem stochastycznym stosowanym w modelowaniu różnych zjawisk, w tym ruchów Browna i wahań na rynkach finansowych. Wzór na warunkowy rozkład prawdopodobieństwa ekstremum procesu Wienera oraz szkic jego dowodu pojawia się w pracy HJ Kushera (dodatek 3, strona 106) opublikowanej w 1964 r. Szczegółowy konstruktywny dowód pojawia się w pracy Dario Ballabio w 1978 r. Wynik ten został opracowany w ramach projektu badawczego pt optymalizacji bayesowskiej .
W niektórych problemach optymalizacji globalnej analityczna definicja funkcji celu jest nieznana i możliwe jest uzyskanie wartości jedynie w ustalonych punktach. Istnieją funkcje celu, w których koszt oceny jest bardzo wysoki, np. gdy ocena jest wynikiem eksperymentu lub szczególnie uciążliwego pomiaru. W takich przypadkach poszukiwanie ekstremum globalnego (maksymalnego lub minimalnego) można przeprowadzić przy użyciu metodologii zwanej „ optymalizacją Bayesa ”, która dąży do uzyskania a priori najlepszego możliwego wyniku przy określonej liczbie ocen. Reasumując, zakłada się, że poza punktami, w których została już oceniona, funkcja celu ma wzór, który można przedstawić za pomocą procesu stochastycznego o odpowiednich charakterystykach. Za model funkcji celu przyjmuje się proces stochastyczny, zakładając, że rozkład prawdopodobieństwa jego ekstremów najlepiej wskazuje na ekstrema funkcji celu. W najprostszym przypadku optymalizacji jednowymiarowej, zakładając, że funkcja celu została oceniona w wielu punktach, pojawia się problem wyboru, w którym z tak wyodrębnionych przedziałów bardziej nadaje się do dalszej oceny. Jeżeli jako model funkcji celu zostanie wybrany proces stochastyczny Wienera, możliwe jest obliczenie rozkładu prawdopodobieństwa ekstremalnych punktów modelu w każdym przedziale, uwarunkowanych znanymi wartościami na granicach przedziałów. Porównanie uzyskanych rozkładów stanowi kryterium wyboru przedziału, w jakim proces powinien być iterowany. Jako kryterium zatrzymania można zastosować wartość prawdopodobieństwa zidentyfikowania przedziału, w którym przypada globalne ekstremum funkcji celu. Optymalizacja bayesowska nie jest skuteczną metodą dokładnego wyszukiwania ekstremów lokalnych, dlatego po ograniczeniu zakresu poszukiwań, w zależności od charakterystyki problemu, można zastosować konkretną metodę optymalizacji lokalnej.
Propozycja
Niech będzie procesem stochastycznym na przedziale wartości początkowej
Z definicji procesu Wienera przyrosty mają rozkład normalny:
Pozwalać
będzie funkcją skumulowanego rozkładu prawdopodobieństwa minimalnej wartości funkcji na przedziale uwarunkowanej wartością
Pokazano, że:
Konstruktywny dowód
Przypadek jest bezpośrednią konsekwencją minimalnej definicji, w dalszej części zawsze będzie zakładane i także obudowa narożna .
Załóżmy, że zdefiniowano w skończonej liczbie punktów. .
Niech poprzez zmianę liczby całkowitej będącej sekwencją zbiorów takich jak że i być zbiorem gęstym w }
każde otoczenie każdego . _
Niech liczbą rzeczywistą dodatnią, taką
Niech zdarzenie zostanie zdefiniowane jako: .
Po wykluczeniu przypadku narożnego , to z pewnością .
Niech będą zdarzeniami zdefiniowanymi jako: i będzie pierwszym k spośród które definiują \
Ponieważ ewidentne . Teraz zostanie udowodnione równanie (2.1) .
(2.1)
Według definicji zdarzeń, n . Teraz zostanie zweryfikowana relacja stąd (2.1) zostanie udowodnione.
Definicja , ciągłość i hipoteza wynika z twierdzenia o wartości pośredniej , .
Przez ciągłość i hipotezę, że ⋃ gęsty w wywnioskowuje się, że dla musi być ,
stąd } implikuje (2.1) .
(2.2)
(2.2) odejmuje się od 2.1) , biorąc pod uwagę, że oznacza, że sekwencja prawdopodobieństw jest jest monotoniczny i nie maleje, a zatem zbiega się do supremumu . Definicja implikuje i (2.2) implikuje .
zakłada się że zdefiniowane.
(2.3)
rzeczywistości z definicji jest to { .
definicji (2,4 prawidłowe n E_
(2.4)
(2.5)
Powyższe wyjaśnia fakt, że zmienna losowa ma symetryczną gęstość prawdopodobieństwa w porównaniu ze swoją średnią, która wynosi zero.
Stosując w sekwencji zależności (2.3) , (2.5) i (2.4) otrzymujemy (2.6) :
(2,6)
Przy tej samej procedurze stosowanej do uzyskania (2.3) , (2.4) i (2.5) wykorzystując ten czas przez zależność. otrzymujemy (2.7) :
(2.7)
Stosując kolejno (2.6) i ( 2.7) otrzymujemy:
(2,8)
pod uwagę ciągłość i twierdzenie o wartości pośredniej , otrzymujemy ,
co oznacza .
Zastąpienie powyższego w (2.8) i przejście do granic: i dla , zdarzenie mi zbiega się do
(2,9)
, zastępując za w (2.9) otrzymujemy równoważną zależność:
(2.10)
Zastosowanie twierdzenia Bayesa do wspólnego zdarzenia
(2.11)
Niech: Z powyższych definicji wynika:
(2.12)
Podstawiając (2.12) do (2.11) otrzymujemy odpowiednik:
(2.13)
Podstawiając (2.9) i (2.10) do (2.13):
(2.14)
Można zaobserwować, że w drugim członie 2.14) pojawia się rozkład prawdopodobieństwa zmiennej losowej , normalny ze średnią e wariancją } .
Realizacje zmiennej losowej i odpowiednio prawdopodobieństwu gęstości:
(2.15)
(2.16)
Podstawiając (2.15) e (2.16) do (2.14) i biorąc granicę dla tezy zostaje udowodniona:
Bibliografia
- Wszechstronny model stochastyczny funkcji o nieznanej i zmieniającej się w czasie postaci - Harold J. Kushner - Journal of Mathematical Analysis and Applications, tom 5, wydanie 1, sierpień 1962, strony 150-167.
- Zastosowanie metod bayesowskich do poszukiwania ekstremum - J. Mockus, J. Tiesis, A. Zilinskas - Kongres IFIP 1977, 8–12 sierpnia Toronto.
Zobacz też
Notatki
-
^ a b HJ Kushner, „Nowa metoda lokalizowania maksymalnego punktu arbitralnej krzywej wieloszczytowej w obecności szumu”, J. Basic Eng 86 (1), 97–106 (01 marca 1964).
-
^ Dario Ballabio, „Una nuova classe di algoritmi stocastici per l'ottimizzazione globale” (Nowa klasa algorytmów stochastycznych do optymalizacji globalnej), Uniwersytet w Mediolanie, Instytut Matematyki, rozprawa doktorska przedstawiona 12 lipca 1978, s. 29–33 .
-
^ János D. Pintér, Global Optimization in Action: Continuous and Lipschitz Optimization, 1996 Springer Science & Business Media , strona 57.