Przybliżenie niskiego rzędu
W matematyce aproksymacja niskiego rzędu jest problemem minimalizacji , w którym funkcja kosztu mierzy dopasowanie między daną macierzą (danymi) a macierzą aproksymującą (zmienną optymalizacyjną), z zastrzeżeniem, że macierz aproksymująca ma zmniejszoną rangę . Problem jest używany do modelowania matematycznego i kompresji danych . Ograniczenie rangi jest związane z ograniczeniem złożoności modelu, który pasuje do danych. W zastosowaniach często istnieją inne ograniczenia macierzy aproksymującej poza ograniczeniem rangowym, np. nieujemność i struktura Hankla .
Przybliżenie niskiego rzędu jest ściśle związane z:
- analiza głównych składowych ,
- analiza czynnikowa ,
- suma najmniejszych kwadratów ,
- ukryta analiza semantyczna
- regresja ortogonalna i
- dekompozycja trybu dynamicznego .
Definicja
Dany
- specyfikacja struktury ,
- wektor parametrów struktury ,
- norma i
- pożądana ranga ,
Aplikacje
- Liniowa identyfikacja systemu , w którym to przypadku macierz aproksymująca ma strukturę Hankla .
- Uczenie maszynowe , w którym to przypadku macierz aproksymująca ma strukturę nieliniową.
- Systemy rekomendujące , w których macierz danych zawiera brakujące wartości , a przybliżenie jest kategoryczne .
- Uzupełnienie macierzy odległości , w którym to przypadku występuje dodatnie ograniczenie określoności.
- Przetwarzanie języka naturalnego , w którym to przypadku przybliżenie jest nieujemne .
- Algebra komputerowa , w którym to przypadku przybliżenie ma strukturę Sylwestra .
Podstawowy problem aproksymacji niskiego rzędu
Nieustrukturyzowany problem z dopasowaniem mierzony normą Frobeniusa , tj.
ma rozwiązanie analityczne w zakresie dekompozycji macierzy danych na wartości osobliwe . Wynik jest określany jako lemat o przybliżeniu macierzy lub twierdzenie Eckarta – Younga – Mirsky'ego . Problem ten został pierwotnie rozwiązany przez Erharda Schmidta w nieskończenie wymiarowym kontekście operatorów całkowych (chociaż jego metody można łatwo uogólnić na dowolne operatory zwarte w przestrzeniach Hilberta), a później ponownie odkryli C. Eckart i G. Young. L. Mirsky uogólnił wynik na dowolne normy unitarnie niezmienne. Pozwalać
być rozkładem na wartości osobliwe gdzie 1 σ . r , partycja , Σ i w następujący sposób: V {\ displaystyle V}
gdzie jest , jest i U 1 {\ Displaystyle U_ {1}} jest . Następnie macierz rankingowa uzyskana z rozkładu obciętej wartości
jest taki, że
Minimalizator unikalny wtedy i tylko wtedy, gdy .
Dowód twierdzenia Eckarta – Younga – Mirsky'ego (dla normy widmowej )
Niech rzeczywistą (prawdopodobnie prostokątną) macierzą z . Przypuszczam, że
jest rozkładem na wartości osobliwe . że i są ortogonalnymi a macierzą diagonalną z takie, że .
najlepsze przybliżenie rangi do widmowej, oznaczone przez , ZA {
gdzie i oznaczają odpowiednio kolumnę i .
Po pierwsze, zauważ, że mamy
Dlatego musimy pokazać, że jeśli i gdzie Y mają kolumny wtedy .
Ponieważ ma musi istnieć nietrywialna liniowa kombinacja pierwszych kolumn displaystyle
tak, że . możemy że równoważnie . Dlatego,
Wynik wynika z pierwiastka kwadratowego z obu stron powyższej nierówności.
Dowód twierdzenia Eckarta – Younga – Mirsky'ego (dla normy Frobeniusa )
Niech rzeczywistą (prawdopodobnie prostokątną) macierzą z . Przypuszczam, że
jest rozkładem wartości osobliwych ZA .
że najlepsze przybliżenie rangi do oznaczone przez , podane przez
gdzie i oznaczają odpowiednio kolumnę i .
Po pierwsze, zauważ, że mamy
Dlatego musimy pokazać, że jeśli i gdzie Y mają wtedy kolumny
normą to . Załóżmy, że i przybliżenie rangi za pomocą SVD opisanej powyżej Wtedy dla dowolnego
σ kiedy i dochodzimy do wniosku, że dla
Dlatego,
jako wymagane.
Ważone problemy aproksymacji niskiego rzędu
Norma Frobeniusa równomiernie waży wszystkie elementy błędu aproksymacji . Wcześniejszą wiedzę na temat rozkładu błędów można wziąć pod uwagę, rozważając ważony problem aproksymacji niskiego rzędu
gdzie wektoryzuje macierz i jest daną dodatnią (pół) określoną macierzą wag
Ogólny ważony problem aproksymacji niskiego rzędu nie dopuszcza rozwiązania analitycznego pod względem rozkładu na wartości osobliwe i jest rozwiązywany lokalnymi metodami optymalizacji, które nie dają żadnej gwarancji znalezienia globalnie optymalnego rozwiązania.
nieujemnej i macierzy chcemy zminimalizować po macierzach, najwyżej rangi .
Wejściowe problemy aproksymacji L p niskiego rzędu
Niech . Dla najszybszy algorytm działa w czas. Jeden z ważnych pomysłów, który został wykorzystany, nazywa się Oblivious Subspace Embedding (OSE), został po raz pierwszy zaproponowany przez Sarlosa.
Dla wiadomo, że ta początkowa norma L1 jest bardziej niezawodna niż norma Frobeniusa w obecności wartości odstających i jest wskazana w modelach, w których założenia Gaussa dotyczące szumu mogą nie mieć zastosowania. Naturalne jest dążenie do zminimalizowania . Dla i istnieje kilka algorytmów z możliwymi do udowodnienia gwarancjami.
Problem aproksymacji odległości niskiego rzędu
Niech i będą dwoma zbiorami punktów w dowolnej przestrzeni metrycznej. Niech \ reprezentuje . Takie macierze odległości są zwykle obliczane w pakietach oprogramowania i mają zastosowanie do uczenia się rozmaitości obrazów, rozpoznawania pisma ręcznego i wielowymiarowego rozwijania. Próbując zmniejszyć rozmiar ich opisu, można badać aproksymację takich macierzy niskiego rzędu.
Problem z aproksymacją niskiego stopnia rozproszonego/przesyłanego strumieniowo
Problemy aproksymacji niskiego rzędu w ustawieniach rozproszonych i strumieniowych zostały rozważone w.
Reprezentacje obrazu i jądra ograniczeń rangi
Korzystanie z ekwiwalentów
I
ważony problem aproksymacji niskiego rzędu staje się równoważny problemom optymalizacji parametrów
I
gdzie macierzą o rozmiarze .
Algorytm projekcji naprzemiennych
funkcja kosztu jest minimalizowana alternatywnie dla jednej ze zmiennych ( lub a druga jest stała Chociaż jednoczesna minimalizacja zarówno dla jak i jest trudnym problemem optymalizacji dwuwypukłej , minimalizacja tylko dla jednej ze zmiennych jest liniowym problemem najmniejszych kwadratów i może być rozwiązana globalnie i wydajnie.
Wynikowy algorytm optymalizacji (zwany projekcjami naprzemiennymi) jest globalnie zbieżny z liniowym współczynnikiem zbieżności do lokalnie optymalnego rozwiązania ważonego problemu aproksymacji niskiego rzędu. podać wartość początkową parametru lub Iteracja jest zatrzymywana, gdy spełniony jest warunek zbieżności zdefiniowany przez użytkownika.
Matlabie algorytmu projekcji naprzemiennych dla ważonej aproksymacji niskiego rzędu:
funkcja [dh, f] = wlra_ap ( d, w, p, tol, maxiter ) [ m , n ] = rozmiar ( d ); r = rozmiar ( p , 2 ); f = inf ; dla i = 2 : maxiter % minimalizacji po Lbp = kron ( oko ( n ) , p ); wl =
( bp ' * w * bp ) \ bp ' * w * d (:); l = przekształć ( vl , r , n ); % minimalizacji nad P bl = kron ( l ' , oko ( m )); vp = ( bl ' * w * bl )
\ bl ' * w * d (:); p = przekształcenie ( vp , m , r ); % sprawdź warunek wyjścia dh = p * l ; dd = re - dh ; f ( ja ) = dd (:) ' * w * dd (:); jeśli abs ( f (
ja - 1 ) - fa ( ja )) < tol , przerwa , koniec koniec dla
Algorytm projekcji zmiennych
projekcji naprzemiennych wykorzystuje fakt, że problem aproksymacji niskiego rzędu, sparametryzowany w postaci obrazu, jest dwuliniowy lub Dwuliniowy charakter problemu jest skutecznie wykorzystywany w podejściu alternatywnym, zwanym projekcjami zmiennymi.
Rozważ ponownie ważony problem aproksymacji niskiego rzędu, sparametryzowany w postaci obrazu. Minimalizacja w odniesieniu do problem najmniejszych kwadratów) prowadzi do wyrażenia w postaci zamkniętej błędu aproksymacji jako funkcji
Pierwotny problem jest kwadratów minimalizacji w odniesieniu w tym celu wykorzystać standardowe metody optymalizacyjne, np. algorytm Levenberga-Marquardta .
Matlabie algorytmu projekcji zmiennych dla aproksymacji ważonej niskiego rzędu:
funkcja [dh, f] = wlra_varpro ( d, w, p, tol, maxiter ) prob = optimset (); prob . solver = 'lsqnonlin' ; prob . options = optimset ( 'MaxIter' , maxiter , 'TolFun' , tol ); prob . x0 = p ; prob . cel = @( str
) cost_fun ( p , d , w ); [ p , fa ] = lsqnonlin ( prawda ); [ fa , vl ] = koszt_zabawy ( p , re , w ); dh = p * przekształcenie ( vl , rozmiar ( p , 2 ), rozmiar ( re
, 2 )); funkcja [f, vl] = koszt_zabawy ( p, d, w ) bp = kron ( oko ( rozmiar ( d , 2 )), p ); vl = ( bp ' * w * bp ) \ bp ' * w * d (:); f = re (:) ' * w * ( re (:) - bp * vl );
Podejście projekcji zmiennych można zastosować również do problemów aproksymacji niskiego rzędu sparametryzowanych w postaci jądra. Metoda jest skuteczna, gdy liczba wyeliminowanych zmiennych jest znacznie większa niż liczba zmiennych optymalizacyjnych pozostawionych na etapie minimalizacji nieliniowej metodą najmniejszych kwadratów. Problemy takie występują w identyfikacji systemu, sparametryzowanej w postaci jądra, gdzie wyeliminowane zmienne są trajektorią aproksymującą, a pozostałe zmienne są parametrami modelu. W kontekście liniowych systemów niezmiennych w czasie krok eliminacji jest równoważny wygładzaniu Kalmana .
Wariant: przybliżenie niskiego rzędu z ograniczeniami wypukłymi
Zwykle chcemy, aby nasze nowe rozwiązanie nie tylko było niskiej rangi, ale także spełniało inne ograniczenia wypukłe wynikające z wymagań aplikacji. Interesujący nas problem byłby następujący:
Ten problem ma wiele zastosowań w świecie rzeczywistym, w tym odzyskanie dobrego rozwiązania z niedokładnej (programowanie półokreślone) relaksacji. Jeśli dodatkowe ograniczenie problem nazywa się strukturalnym przybliżeniem niskiego rzędu. Bardziej ogólna forma nazywana jest przybliżeniem niskiego rzędu z ograniczeniami wypukłymi.
Ten problem jest pomocny w rozwiązywaniu wielu problemów. Jest to jednak trudne ze względu na połączenie ograniczeń wypukłych i niewypukłych (niskiego rzędu). Różne techniki zostały opracowane w oparciu o różne realizacje . Jednak metoda mnożników zmiennego kierunku (ADMM) może być zastosowana do rozwiązania problemu niewypukłego z wypukłą funkcją celu, ograniczeniami rangi i innymi ograniczeniami wypukłymi, a zatem jest odpowiednia do rozwiązania naszego powyższego problemu. Co więcej, w przeciwieństwie do ogólnych problemów niewypukłych, ADMM zagwarantuje zbieżność wykonalnego rozwiązania, o ile jego zmienna dualna będzie zbieżna w iteracjach.
Zobacz też
- Aproksymacja macierzy CUR jest wykonywana z wierszy i kolumn oryginalnej macierzy
- MT Chu, RE Funderlic, RJ Plemmons, Structured low-rank appimation, Linear Algebra and its Applications, tom 366, 1 czerwca 2003 r., strony 157–172 doi : 10.1016 / S0024-3795(02)00505-0