Metryka Wassersteina

W matematyce rozkładami odległość Wassersteina lub metryka Kantorowicza - Rubinsteina to funkcja odległości zdefiniowana między prawdopodobieństwa danej przestrzeni . Nosi imię Leonida Vaseršteĭna .

Intuicyjnie, jeśli każdy rozkład jest postrzegany jako jednostkowa ilość ziemi (gleby) ułożonej na stosie , metryką jest minimalny „ ” przekształcenia jednego stosu w drugi, który przyjmuje się jako ilość ziemi M {\ displaystyle M którą należy przesunąć razy średnią odległość, na jaką ma zostać przesunięta. Problem ten został po raz pierwszy sformalizowany przez Gasparda Monge'a w 1781 roku. Z powodu tej analogii metryka jest znana w informatyce jako odległość poruszacza się ziemi .

Nazwa „odległość Wassersteina” została ukuta przez RL Dobrushina w 1970 roku, po zapoznaniu się z nią w pracy Leonida Vaseršteĭna na temat procesów Markowa opisujących duże systemy automatów (rosyjski, 1969). Jednak metryka została po raz pierwszy zdefiniowana przez Leonida Kantorowicza w Matematycznej metodzie planowania i organizacji produkcji (oryginał rosyjski 1939) w kontekście optymalnego planowania transportu towarów i materiałów. W ten sposób niektórzy uczeni zachęcają do używania terminów „metryka Kantorowicza” i „odległość Kantorowicza”. Najbardziej angielski -publikacje językowe posługują się pisownią niemiecką „Wasserstein” (przypisywaną niemieckiemu pochodzeniu nazwy „Vaseršteĭn” ).

Definicja

Niech będzie przestrzenią metryczną , która jest przestrzenią Radona . ∈ Wasserstein - odległość między dwiema prawdopodobieństwa i na ze skończonym - chwile

gdzie jest zbiorem wszystkich sprzężeń i Γ . Sprzężenie jest wspólną miarą prawdopodobieństwa na { \ , którego brzegi to odpowiednio na pierwszym i drugim czynniku. To jest,

Intuicja i połączenie z optymalnym transportem

Dwa jednowymiarowe rozkłady wykreślone na osiach x i y oraz jeden możliwy wspólny rozkład, który definiuje plan transportu nimi Wspólny plan dystrybucji/transportu nie jest wyjątkowy

Jednym ze sposobów zrozumienia powyższej definicji jest rozważenie optymalnego problemu transportowego . dla rozkładu masy przestrzeni chcemy przetransportować masę w taki sposób, aby została w tej samej przestrzeni; przekształcając „stos ziemi” w stos . Ten problem ma sens tylko wtedy, gdy stos, który ma zostać utworzony, ma taką samą masę jak stos, który ma zostać przeniesiony; bez utraty ogólności załóżmy, że i są rozkładami prawdopodobieństwa zawierającymi całkowitą masę równą 1. Załóżmy również, że dana jest jakaś funkcja kosztu

co daje koszt transportu masy jednostkowej z punktu punktu . transportu do przeniesienia można opisać funkcją , która podaje ilość masy do przejść z do . Możesz wyobrazić zadanie jako potrzebę przeniesienia kupki ziemi o kształcie w ziemi o takim kształcie, na końcu zarówno kupka ziemi, jak i dziura w ziemi całkowicie znika. Aby ten plan był sensowny, musi spełniać następujące właściwości

Oznacza to, że całkowita masa przeniesiona z nieskończenie małego obszaru wokół musi być równa całkowita przeniesiona masa do regionu wokół być . Jest to równoważne z wymogiem, że być wspólnym rozkładem prawdopodobieństwa z marginesami ν . Zatem nieskończenie mała masa przenoszona z do γ , a koszt przeprowadzki to kosztu funkcjonować. Dlatego całkowity koszt planu transportowego wynosi

Plan ; optymalny plan transportowy to plan o minimalnych kosztach spośród wszystkich możliwych planów transportowych. Jak wspomniano, warunkiem ważności planu jest wspólna dystrybucja z marginesami ν ; pozwalając na oznaczenie zestawu wszystkich takich miar, jak w pierwszej sekcji, koszt optymalnego planu wynosi

Jeśli koszt ruchu jest po prostu odległością między dwoma punktami, to koszt optymalny jest identyczny .

Przykłady

Masy punktowe

Rozkłady deterministyczne

Niech i być dwoma zdegenerowanymi rozkładami (tj. rozkładami delta Diraca zlokalizowanymi w punktach 2 w . Istnieje tylko jedno możliwe połączenie w . Tak więc, używając zwykłej wartości bezwzględnej jako funkcji odległości dla dowolnego , odległość -Wasserstein między i wynosi i

Z podobnego rozumowania, jeśli i i to masy punktowe zlokalizowane w punktach 2 w i używamy zwykłej normy euklidesowej dla jako funkcja odległości, zatem

Rozkłady empiryczne

Jeden wymiar

Jeśli jest empiryczną z próbkami jest miarą empiryczną z , odległość jest prostą funkcją statystyki porządku :

Wyższe wymiary

Jeśli i są rozkładami empirycznymi, każdy na obserwacjach, to

gdzie infimum obejmuje wszystkie permutacje n . Jest to problem przypisania liniowego , który można rozwiązać algorytmem węgierskim w czasie sześciennym .

Rozkłady normalne

Niech i być dwoma niezdegenerowanymi miarami Gaussa (tj. rozkładami normalnymi ) na , z odpowiednimi oczekiwane wartości i i symetryczne dodatnie półokreślone macierze kowariancji i do . Następnie, w odniesieniu do zwykłej normy euklidesowej na , odległość 2-Wassersteina między i 1 }

obejmujący ślad) to dokładnie (nieznormalizowana) metryka Buresa i do . Wynik ten uogólnia wcześniejszy przykład odległości Wassersteina między dwiema masami punktowymi (przynajmniej w przypadku ), ponieważ masę punktową można uznać za rozkład normalny z macierzą kowariancji równą zero, w takim razie ślad termin znika i pozostaje tylko termin obejmujący odległość euklidesową między środkami.

Rozkłady jednowymiarowe

Niech będą miarami prawdopodobieństwa na i oznacz ich skumulowane funkcje dystrybucyjne przez i . Wtedy problem transportu ma rozwiązanie analityczne: transport optymalny zachowuje kolejność elementów masy prawdopodobieństwa, więc masa w kwantylu się do kwantyla μ z . Zatem odległość -Wassersteina między i p wynosi

gdzie ( _ _ _ W przypadku zmiana zmiennych prowadzi do wzoru

.

Aplikacje

Metryka Wassersteina to naturalny sposób porównywania rozkładów prawdopodobieństwa dwóch zmiennych X i Y , gdzie jedna zmienna pochodzi od drugiej za pomocą małych, niejednorodnych zaburzeń (losowych lub deterministycznych).

Na przykład w informatyce metryka W 1 jest szeroko stosowana do porównywania rozkładów dyskretnych, np. histogramów kolorów dwóch obrazów cyfrowych ; zobacz odległość poruszającego się ziemi, aby uzyskać więcej informacji.

W swoim artykule „ Wasserstein GAN ”, Arjovsky et al. użyj metryki Wasserstein-1 jako sposobu na ulepszenie pierwotnej struktury Generative Adversarial Networks (GAN), aby złagodzić zanikający gradient i problemy z załamaniem się trybu. Specjalny przypadek rozkładów normalnych jest używany w odległości początkowej Frecheta .

Metryka Wassersteina ma formalne powiązanie z analizą Procrustes , z zastosowaniem do miar chiralności i analizy kształtu.

W biologii obliczeniowej metrykę Wassersteina można wykorzystać do porównania diagramów trwałości zbiorów danych cytometrii.

Metryka Wassersteina była również stosowana w problemach odwrotnych w geofizyce.

Metryka Wassersteina jest używana w zintegrowanej teorii informacji do obliczania różnicy między pojęciami a strukturami pojęciowymi.

Nieruchomości

Struktura metryczna

Można pokazać, że W p spełnia wszystkie aksjomaty metryki na P p ( M ). Ponadto zbieżność względem W p jest równoważna zwykłej słabej zbieżności miar plus zbieżności pierwszych p -tych momentów.

Podwójna reprezentacja W 1

Następująca podwójna reprezentacja W 1 jest szczególnym przypadkiem twierdzenia o dualności Kantorowicza i Rubinsteina (1958): gdy μ i ν mają ograniczone wsparcie ,

gdzie Lip( f ) oznacza minimalną stałą Lipschitza dla f .

Porównaj to z definicją metryki Radona :

Jeśli metryka d jest ograniczona przez jakąś stałą C , to

tak więc zbieżność w metryce Radona (identyczna z konwergencją całkowitej wariacji , gdy M jest polską przestrzenią ) implikuje zbieżność w metryce Wassersteina, ale nie odwrotnie.

Dowód

Poniżej znajduje się intuicyjny dowód, który pomija kwestie techniczne. W pełni rygorystyczny dowód znajduje się w.

Przypadek dyskretny : gdy jest dyskretny, rozwiązanie dla odległości 1-Wassersteina jest problemem w programowaniu liniowym:

gdzie jest ogólną „funkcją kosztu”

Starannie zapisując powyższe równania jako równania macierzowe, otrzymujemy podwójny problem :

oraz przez twierdzenie o dualności programowania liniowego , ponieważ problem pierwotny jest wykonalny i ograniczony, podobnie problem dualny, a minimum w pierwszym problemie równa się maksimum w drugim problemie. Oznacza to, że para problemów wykazuje silną dwoistość .

W ogólnym przypadku podwójny problem można znaleźć, przekształcając sumy w całki:

a silna dwoistość nadal się utrzymuje. To jest twierdzenie o dualności Kantorowicza . Cédric Villani przytacza następującą interpretację Luisa Caffarelliego :

, że chcesz wysłać trochę węgla z kopalni, dystrybuowanego jako , do fabryk, dystrybuowanego jako . Funkcja kosztów transportu to . Teraz przychodzi spedytor i oferuje wykonanie transportu za Ciebie. Zapłaciłbyś mu załadowanie węgla i zapłaciłbyś mu za węgiel do rozładunku węgla w .

Aby zaakceptować ofertę, cennik musi spełniać . Dualność Kantorowicza mówi, że nadawca może ustalić harmonogram cen, który sprawi, że zapłacisz prawie tyle, ile sam byś wysłał.

Ten wynik można nacisnąć dalej, aby uzyskać:

  Twierdzenie (dwoistość Kantorowicza-Rubensteina) - Gdy przestrzeń prawdopodobieństwa jest przestrzenią metryczną, to dla dowolnej ustalonej , ,

gdzie _ _ _
Dowód

Wystarczy udowodnić przypadek . Zacząć od

wyboru , można przesunąć termin wyżej, ustawiając , co czyni go splotem ze . To implikuje dla dowolnego , czyli .

Zatem,

wyboru ustawiając re . ponieważ sol .
Dolny splot stożka z krzywą. Zwróć uwagę, jak dolna obwiednia ma nachylenie jak dolna obwiednia jest krzywej w częściach, w których sama

Dwa początkowe etapy splotu są wizualnie jasne, gdy przestrzeń prawdopodobieństwa wynosi .

Dla wygody notacji niech splotu wewnętrznego.

W pierwszym kroku, w którym użyliśmy , wykreśl krzywą , a następnie przy każdym kroku narysuj stożek o nachyleniu 1 i weź dolną obwiednię stożków jako , jak pokazano na schemacie, to nie może wzrosnąć przy nachyleniu większym niż 1. Zatem wszystkie jego sieczne są mieć nachylenie .

drugim kroku wyobraź sobie wewnętrzny splot mają najwyżej do tylko same wierzchołki stożka, więc .

Przykład 1D . Gdy oba rozkładami na to całkowanie przez części daje

zatem

Mechanika płynów interpretacja W 2

podwójną reprezentację mechaniki , która umożliwia rozwiązanie dzięki optymalizacji wypukłej .

Biorąc pod uwagę dwa rozkłady prawdopodobieństwa na , to z gęstością }

gdzie prędkości i jest gęstości płynu, takim że
Oznacza to, że masa powinna być zachowana, a pole prędkości powinno przenosić rozkład prawdopodobieństwa czasu [ .

Równoważność W 2 i norma Sobolewa rzędu ujemnego

Przy odpowiednich założeniach odległość Wassersteina Lipschitzowi z jednorodną normą Sobolewa rzędu ujemnego Dokładniej, jeśli przyjmiemy, że jest to spójna rozmaitość riemannowska wyposażona w dodatnią miarę to możemy zdefiniować dla półnormę

a dla miary ze znakiem { \

dowolne dwie miary prawdopodobieństwa i na górną granicę μ

W przeciwnym kierunku, jeśli i z nich ma gęstości w stosunku do standardowej miary objętości na ograniczone powyżej pewnego i ma nieujemną krzywiznę Ricciego , a następnie

Rozdzielność i kompletność

Dla dowolnego p ≥ 1 przestrzeń metryczna ( P p ( M ), W p ) jest rozdzielna i jest zupełna , jeśli ( M , d ) jest rozdzielna i zupełna.

Zobacz też

Dalsza lektura

Linki zewnętrzne