Funkcja odległości zdefiniowana między rozkładami prawdopodobieństwa
W matematyce rozkładami odległość Wassersteina lub metryka Kantorowicza - Rubinsteina to funkcja odległości zdefiniowana między prawdopodobieństwa danej przestrzeni . Nosi imię Leonida Vaseršteĭna .
Intuicyjnie, jeśli każdy rozkład jest postrzegany jako jednostkowa ilość ziemi (gleby) ułożonej na stosie , metryką jest minimalny „ ” przekształcenia jednego stosu w drugi, który przyjmuje się jako ilość ziemi M {\ displaystyle M którą należy przesunąć razy średnią odległość, na jaką ma zostać przesunięta. Problem ten został po raz pierwszy sformalizowany przez Gasparda Monge'a w 1781 roku. Z powodu tej analogii metryka jest znana w informatyce jako odległość poruszacza się ziemi .
Nazwa „odległość Wassersteina” została ukuta przez RL Dobrushina w 1970 roku, po zapoznaniu się z nią w pracy Leonida Vaseršteĭna na temat procesów Markowa opisujących duże systemy automatów (rosyjski, 1969). Jednak metryka została po raz pierwszy zdefiniowana przez Leonida Kantorowicza w Matematycznej metodzie planowania i organizacji produkcji (oryginał rosyjski 1939) w kontekście optymalnego planowania transportu towarów i materiałów. W ten sposób niektórzy uczeni zachęcają do używania terminów „metryka Kantorowicza” i „odległość Kantorowicza”. Najbardziej angielski -publikacje językowe posługują się pisownią niemiecką „Wasserstein” (przypisywaną niemieckiemu pochodzeniu nazwy „Vaseršteĭn” ).
Definicja
Niech będzie przestrzenią metryczną , która jest przestrzenią Radona . ∈ Wasserstein - odległość między dwiema prawdopodobieństwa i na ze skończonym - chwile są
gdzie jest zbiorem wszystkich sprzężeń i Γ . Sprzężenie jest wspólną miarą prawdopodobieństwa na { \ , którego brzegi to odpowiednio na pierwszym i drugim czynniku. To jest,
Intuicja i połączenie z optymalnym transportem
Dwa jednowymiarowe rozkłady
wykreślone na osiach x i y oraz jeden możliwy wspólny rozkład, który definiuje plan transportu
nimi Wspólny plan dystrybucji/transportu nie jest wyjątkowy
Jednym ze sposobów zrozumienia powyższej definicji jest rozważenie optymalnego problemu transportowego . dla rozkładu masy przestrzeni chcemy przetransportować masę w taki sposób, aby została w tej samej przestrzeni; przekształcając „stos ziemi” w stos . Ten problem ma sens tylko wtedy, gdy stos, który ma zostać utworzony, ma taką samą masę jak stos, który ma zostać przeniesiony; bez utraty ogólności załóżmy, że i są rozkładami prawdopodobieństwa zawierającymi całkowitą masę równą 1. Załóżmy również, że dana jest jakaś funkcja kosztu
co daje koszt transportu masy jednostkowej z punktu punktu . transportu do przeniesienia można opisać funkcją , która podaje ilość masy do przejść z do . Możesz wyobrazić zadanie jako potrzebę przeniesienia kupki ziemi o kształcie w ziemi o takim kształcie, na końcu zarówno kupka ziemi, jak i dziura w ziemi całkowicie znika. Aby ten plan był sensowny, musi spełniać następujące właściwości
Oznacza to, że całkowita masa przeniesiona z nieskończenie małego obszaru wokół musi być równa całkowita przeniesiona masa do regionu wokół być . Jest to równoważne z wymogiem, że być wspólnym rozkładem prawdopodobieństwa z marginesami ν . Zatem nieskończenie mała masa przenoszona z do γ , a koszt przeprowadzki to kosztu funkcjonować. Dlatego całkowity koszt planu transportowego wynosi
Plan ; optymalny plan transportowy to plan o minimalnych kosztach spośród wszystkich możliwych planów transportowych. Jak wspomniano, warunkiem ważności planu jest wspólna dystrybucja z marginesami ν ; pozwalając na oznaczenie zestawu wszystkich takich miar, jak w pierwszej sekcji, koszt optymalnego planu wynosi
Jeśli koszt ruchu jest po prostu odległością między dwoma punktami, to koszt optymalny jest identyczny .
Przykłady
Masy punktowe
Rozkłady deterministyczne
Niech i być dwoma zdegenerowanymi rozkładami (tj. rozkładami delta Diraca zlokalizowanymi w punktach 2 w . Istnieje tylko jedno możliwe połączenie w . Tak więc, używając zwykłej wartości bezwzględnej jako funkcji odległości dla dowolnego , odległość -Wasserstein między i wynosi i
Z podobnego rozumowania, jeśli i i to masy punktowe zlokalizowane w punktach 2 w i używamy zwykłej normy euklidesowej dla jako funkcja odległości, zatem
Rozkłady empiryczne
Jeden wymiar
Jeśli jest empiryczną z próbkami jest miarą empiryczną z , odległość jest prostą funkcją statystyki porządku :
Wyższe wymiary
Jeśli i są rozkładami empirycznymi, każdy na obserwacjach, to
gdzie infimum obejmuje wszystkie permutacje n . Jest to problem przypisania liniowego , który można rozwiązać algorytmem węgierskim w czasie sześciennym .
Rozkłady normalne
Niech i być dwoma niezdegenerowanymi miarami Gaussa (tj. rozkładami normalnymi ) na , z odpowiednimi oczekiwane wartości i i symetryczne dodatnie półokreślone macierze kowariancji i do . Następnie, w odniesieniu do zwykłej normy euklidesowej na , odległość 2-Wassersteina między i 1 }
obejmujący ślad) to dokładnie (nieznormalizowana) metryka Buresa i do . Wynik ten uogólnia wcześniejszy przykład odległości Wassersteina między dwiema masami punktowymi (przynajmniej w przypadku ), ponieważ masę punktową można uznać za rozkład normalny z macierzą kowariancji równą zero, w takim razie ślad termin znika i pozostaje tylko termin obejmujący odległość euklidesową między środkami.
Rozkłady jednowymiarowe
Niech będą miarami prawdopodobieństwa na i oznacz ich skumulowane funkcje dystrybucyjne przez i . Wtedy problem transportu ma rozwiązanie analityczne: transport optymalny zachowuje kolejność elementów masy prawdopodobieństwa, więc masa w kwantylu się do kwantyla μ z . Zatem odległość -Wassersteina między i p wynosi
gdzie ( _ _ _ W przypadku zmiana zmiennych prowadzi do wzoru
-
.
Aplikacje
Metryka Wassersteina to naturalny sposób porównywania rozkładów prawdopodobieństwa dwóch zmiennych X i Y , gdzie jedna zmienna pochodzi od drugiej za pomocą małych, niejednorodnych zaburzeń (losowych lub deterministycznych).
Na przykład w informatyce metryka W 1 jest szeroko stosowana do porównywania rozkładów dyskretnych, np. histogramów kolorów dwóch obrazów cyfrowych ; zobacz odległość poruszającego się ziemi, aby uzyskać więcej informacji.
W swoim artykule „ Wasserstein GAN ”, Arjovsky et al. użyj metryki Wasserstein-1 jako sposobu na ulepszenie pierwotnej struktury Generative Adversarial Networks (GAN), aby złagodzić zanikający gradient i problemy z załamaniem się trybu. Specjalny przypadek rozkładów normalnych jest używany w odległości początkowej Frecheta .
Metryka Wassersteina ma formalne powiązanie z analizą Procrustes , z zastosowaniem do miar chiralności i analizy kształtu.
W biologii obliczeniowej metrykę Wassersteina można wykorzystać do porównania diagramów trwałości zbiorów danych cytometrii.
Metryka Wassersteina była również stosowana w problemach odwrotnych w geofizyce.
Metryka Wassersteina jest używana w zintegrowanej teorii informacji do obliczania różnicy między pojęciami a strukturami pojęciowymi.
Nieruchomości
Struktura metryczna
Można pokazać, że W p spełnia wszystkie aksjomaty metryki na P p ( M ). Ponadto zbieżność względem W p jest równoważna zwykłej słabej zbieżności miar plus zbieżności pierwszych p -tych momentów.
Podwójna reprezentacja W 1
Następująca podwójna reprezentacja W 1 jest szczególnym przypadkiem twierdzenia o dualności Kantorowicza i Rubinsteina (1958): gdy μ i ν mają ograniczone wsparcie ,
gdzie Lip( f ) oznacza minimalną stałą Lipschitza dla f .
Porównaj to z definicją metryki Radona :
Jeśli metryka d jest ograniczona przez jakąś stałą C , to
tak więc zbieżność w metryce Radona (identyczna z konwergencją całkowitej wariacji , gdy M jest polską przestrzenią ) implikuje zbieżność w metryce Wassersteina, ale nie odwrotnie.
Dowód
Poniżej znajduje się intuicyjny dowód, który pomija kwestie techniczne. W pełni rygorystyczny dowód znajduje się w.
Przypadek dyskretny : gdy jest dyskretny, rozwiązanie dla odległości 1-Wassersteina jest problemem w programowaniu liniowym:
gdzie jest ogólną „funkcją kosztu”
Starannie zapisując powyższe równania jako równania macierzowe, otrzymujemy podwójny problem :
oraz przez
twierdzenie o dualności programowania liniowego , ponieważ problem pierwotny jest wykonalny i ograniczony, podobnie problem dualny, a minimum w pierwszym problemie równa się maksimum w drugim problemie. Oznacza to, że para problemów wykazuje
silną dwoistość .
W ogólnym przypadku podwójny problem można znaleźć, przekształcając sumy w całki:
a
silna dwoistość nadal się utrzymuje. To jest
twierdzenie o dualności Kantorowicza .
Cédric Villani przytacza następującą interpretację
Luisa Caffarelliego :
, że chcesz wysłać trochę węgla z kopalni, dystrybuowanego jako , do fabryk, dystrybuowanego jako . Funkcja kosztów transportu to . Teraz przychodzi spedytor i oferuje wykonanie transportu za Ciebie. Zapłaciłbyś mu załadowanie węgla i zapłaciłbyś mu za węgiel do rozładunku węgla w .
Aby zaakceptować ofertę, cennik musi spełniać . Dualność Kantorowicza mówi, że nadawca może ustalić harmonogram cen, który sprawi, że zapłacisz prawie tyle, ile sam byś wysłał.
Ten wynik można nacisnąć dalej, aby uzyskać:
Twierdzenie (dwoistość Kantorowicza-Rubensteina) - Gdy przestrzeń prawdopodobieństwa jest przestrzenią metryczną, to dla dowolnej ustalonej , ,
gdzie
_
_ _
Dowód
Wystarczy udowodnić przypadek . Zacząć od
wyboru , można przesunąć termin wyżej, ustawiając
, co czyni go
splotem ze . To implikuje
dla dowolnego
, czyli
.
Zatem,
wyboru ustawiając
re . ponieważ
sol
.
Dolny splot stożka z krzywą. Zwróć uwagę, jak dolna obwiednia ma nachylenie
jak dolna obwiednia jest
krzywej w częściach, w których sama
Dwa początkowe etapy splotu są wizualnie jasne, gdy przestrzeń prawdopodobieństwa wynosi .
Dla wygody notacji niech splotu wewnętrznego.
W pierwszym kroku, w którym użyliśmy , wykreśl krzywą , a następnie przy każdym kroku narysuj stożek o nachyleniu 1 i weź dolną obwiednię stożków jako , jak pokazano na schemacie, to nie może wzrosnąć przy nachyleniu większym niż 1. Zatem wszystkie jego sieczne są mieć nachylenie .
drugim kroku wyobraź sobie wewnętrzny splot mają najwyżej do tylko same wierzchołki stożka, więc .
Przykład 1D . Gdy oba rozkładami na to całkowanie przez części daje
zatem
Mechanika płynów interpretacja W 2
podwójną reprezentację mechaniki , która umożliwia rozwiązanie dzięki optymalizacji wypukłej .
Biorąc pod uwagę dwa rozkłady prawdopodobieństwa na , to z gęstością }
gdzie
prędkości i jest gęstości płynu, takim że
Oznacza to, że masa powinna być zachowana, a pole prędkości powinno przenosić rozkład prawdopodobieństwa
czasu [
.
Równoważność W 2 i norma Sobolewa rzędu ujemnego
Przy odpowiednich założeniach odległość Wassersteina Lipschitzowi z jednorodną normą Sobolewa rzędu ujemnego Dokładniej, jeśli przyjmiemy, że jest to spójna rozmaitość riemannowska wyposażona w dodatnią miarę to możemy zdefiniować dla półnormę
a dla miary ze znakiem { \
dowolne dwie miary prawdopodobieństwa i na górną granicę μ
W przeciwnym kierunku, jeśli i z nich ma gęstości w stosunku do standardowej miary objętości na ograniczone powyżej pewnego i ma nieujemną krzywiznę Ricciego , a następnie
Rozdzielność i kompletność
Dla dowolnego p ≥ 1 przestrzeń metryczna ( P p ( M ), W p ) jest rozdzielna i jest zupełna , jeśli ( M , d ) jest rozdzielna i zupełna.
Zobacz też
Dalsza lektura
Linki zewnętrzne