Uzupełnienie matrycy

Uzupełnienie macierzy częściowo ujawnionej macierzy 5 na 5 z rangą 1. Po lewej: obserwowana niekompletna macierz; Po prawej: wynik uzupełnienia macierzy.

Uzupełnianie macierzy to zadanie polegające na uzupełnieniu brakujących wpisów częściowo zaobserwowanej macierzy, co jest równoznaczne z imputacją danych w statystyce. Szeroka gama zestawów danych jest naturalnie zorganizowana w formie macierzowej. Jednym z przykładów jest macierz ocen filmów, jak pojawia się w problemie Netflix : Biorąc pod uwagę macierz ocen, w której każdy wpis reprezentuje ocenę filmu przez klient , jeśli klient obejrzał film jest poza tym nieobecny, chcielibyśmy przewidzieć pozostałe wpisy, aby dobrze zarekomendować klientom, co dalej oglądać. Innym przykładem jest macierz terminów dokumentu : Częstotliwości słów używanych w zbiorze dokumentów można przedstawić jako macierz, w której każdy wpis odpowiada liczbie wystąpień powiązanego terminu we wskazanym dokumencie.

Bez ograniczeń co do liczby stopni swobody w uzupełnionej macierzy problem ten jest niedookreślony , ponieważ ukrytym wpisom można by przypisać dowolne wartości. W związku z tym wymagamy pewnych założeń dotyczących macierzy, aby stworzyć dobrze postawiony problem , takich jak założenie, że ma ona wyznacznik maksymalny, jest dodatnio określona lub jest niskiego rzędu.

Na przykład można założyć, że macierz ma strukturę niskiego rzędu, a następnie szukać macierzy najniższego rzędu lub, jeśli znana jest ranga wypełnionej macierzy, macierzy rangi, która pasuje do znanych wpisów . Ilustracja pokazuje, że częściowo ujawniona macierz rangi 1 (po lewej) może zostać uzupełniona zerowym błędem (po prawej), ponieważ wszystkie wiersze z brakującymi wpisami powinny być takie same jak w trzecim wierszu. W przypadku problemu z Netflixem oczekuje się, że macierz ocen będzie niskiej rangi, ponieważ preferencje użytkowników często można opisać kilkoma czynnikami, takimi jak gatunek filmu i czas premiery. Inne zastosowania obejmują widzenie komputerowe, w którym należy zrekonstruować brakujące piksele w obrazach, wykrywanie globalnego położenia czujników w sieci na podstawie częściowych informacji o odległości oraz nauka wieloklasowa . Problem uzupełniania macierzy jest na ogół NP-trudny , ale przy dodatkowych założeniach istnieją wydajne algorytmy, które osiągają dokładną rekonstrukcję z dużym prawdopodobieństwem.

Z punktu widzenia uczenia się statystycznego problem uzupełniania macierzy jest zastosowaniem regularyzacji macierzy , która jest uogólnieniem regularyzacji wektorowej . Na przykład w problemie uzupełniania macierzy niskiego rzędu można zastosować karę regularyzacyjną w postaci normy jądrowej

Uzupełnienie macierzy niskiego rzędu

Jednym z wariantów problemu uzupełniania macierzy jest znalezienie macierzy najniższego która pasuje macierzy , chcemy odzyskać, dla wszystkich wpisów w obserwowanych wpisów. Matematyczne sformułowanie tego problemu jest następujące:

Candès i Recht dowiedli, że przy założeniach dotyczących próbkowania obserwowanych wpisów i odpowiednio wielu próbkowanych wpisów problem ten ma unikalne rozwiązanie z dużym prawdopodobieństwem.

Równoważne sformułowanie, biorąc pod uwagę, że macierz do odzyskania ma należy dla gdzie

Założenia

niedookreślony , często przyjmuje się szereg założeń dotyczących doboru próby obserwowanych wpisów i liczby wpisów objętych próbą .

Jednolite próbkowanie obserwowanych wpisów

Aby analiza była wykonalna, często zakłada się, że zbiór wpisów i ustalonej liczności jest próbkowany losowo ze zbioru wszystkich podzbiorów wpisów o liczności . Aby jeszcze bardziej uprościć analizę, zamiast tego zakłada się, że konstruowany przez Bernoulliego , tj. że każdy wpis jest obserwowany . jeśli jest ustawiony na { \ gdzie jest oczekiwaną liczebnością i to wymiary macierzy (niech bez utraty ogólności), mieści się w granicach prawdopodobieństwem więc Bernoulliego jest Innym uproszczeniem jest założenie, że wpisy są losowane niezależnie iz zastępstwem.

Dolna granica liczby obserwowanych wpisów

Załóżmy, że próbujemy , ma rangę { . Istnieje dolna granica teoretycznej informacji, ile wpisów należy zaobserwować, zanim . Zestaw przez mniejszej lub równej rozmaitością algebraiczną w wymiarze . można pokazać, że co najmniej obserwowane w celu uzupełnienia mieć unikalne rozwiązanie, gdy .

Po drugie, musi istnieć co najmniej jeden obserwowany wpis na wiersz i kolumnę . Rozkład na wartości osobliwe określony przez . Jeśli wiersz łatwo jest zobaczyć pojedynczy wektor , , można zmienić na dowolną dowolną wartość i nadal uzyskać macierz pasującą zbioru obserwowanych wpisów. Podobnie, jeśli kolumna nieobserwowana, lewy pojedynczy wektor , może być dowolny. Jeśli założymy próbkowanie Bernoulliego zbioru obserwowanych wpisów, efekt kolekcjonera kuponów oznacza, że ​​​​należy przestrzegać wpisów rzędu aby zapewnić obserwację z każdego wiersza i kolumny z dużym prawdopodobieństwem.

Łącząc niezbędne warunki i zakładając, że , dolna granica liczby obserwowanych wpisów wymaganych, aby zapobiec bycie niedookreślonym jest rzędu .

Brak związku

Koncepcja niespójności powstała w skompresowanym wykrywaniu . Jest wprowadzany w kontekście uzupełniania macierzy, aby zapewnić, że wektory osobliwe w tym sensie, że wszystkie współrzędne każdego wektora osobliwego mają porównywalną wielkość, a nie tylko kilka współrzędnych o znacznie większym wielkości. Standardowe wektory bazowe są wtedy niepożądane jako wektory pojedyncze, a wektor matrix Displaystyle jest pożądane. Jako przykład tego, co może pójść nie tak, jeśli pojedyncze wektory są wystarczająco „rzadkie”, rozważmy macierz with rozkład na wartości osobliwe . Prawie wpisy muszą zostać pobrane zanim będzie można je zrekonstruować.

Recht definiują spójność macierzy z kolumn i podprzestrzenią wymiarową jako , gdzie rzutem ortogonalnym na . Niespójność następnie twierdzi, że biorąc pod uwagę osobliwej macierzy , U \ }

  1. Wpisy mają wielkości górne ograniczone przez

dla niektórych .

Uzupełnianie macierzy niskiego rzędu z szumem

W rzeczywistych aplikacjach często obserwuje się tylko kilka wpisów uszkodzonych przynajmniej przez niewielką ilość szumu. Na przykład w problemie z Netflixem oceny są niepewne. Candès i Plan wykazali, że możliwe jest uzupełnienie wielu brakujących wpisów dużych macierzy niskiego rzędu z zaledwie kilku zaszumionych próbek poprzez minimalizację norm jądrowych. Model hałaśliwy zakłada, że ​​obserwujemy

gdzie jest terminem szumowym. Zauważ, że szum może być stochastyczny lub deterministyczny. Alternatywnie model można wyrazić jako

gdzie jest z wpisami dla zakładając, że dla pewnego . Aby odzyskać niekompletną macierz, próbujemy rozwiązać następujący problem optymalizacyjny:

Spośród wszystkich macierzy zgodnych z danymi znajdź tę, która ma minimalną normę jądrową. Candès i Plan wykazali, że ta rekonstrukcja jest dokładna. Udowodnili oni, że gdy następuje idealne bezszumowe odzyskiwanie, wówczas uzupełnianie macierzy jest stabilne w stosunku do perturbacji. Błąd jest proporcjonalny do poziomu hałasu . Dlatego, gdy poziom szumu jest mały, błąd jest mały. Tutaj problem uzupełniania macierzy nie jest zgodny z ograniczoną właściwością izometrii (RIP). W przypadku macierzy RIP zakładałby, że operator próbkowania jest posłuszny

dla wszystkich macierzy randze małej Sposoby mają również zastosowanie do problemów z odtwarzaniem rzadkich sygnałów, w których protokół RIP nie jest spełniony.

Uzupełnienie macierzy wysokiego rzędu

Ogólnie rzecz biorąc, uzupełnienie macierzy wysokiego rzędu jest NP-trudne . Jednak przy pewnych założeniach można uzupełnić pewną niekompletną macierz wysokiego rzędu lub nawet pełną macierz rang.

Eriksson, Balzano i Nowak rozważali problem uzupełniania macierzy przy założeniu, że kolumny macierzy należą do sumy wielu podprzestrzeni niskiego rzędu. Ponieważ kolumny należą do unii podprzestrzeni, problem może być postrzegany jako wersja problemu grupowania podprzestrzeni z brakującymi danymi . Niech będzie macierzą co najwyżej , z których każda i załóżmy, że . Eriksson, i Nowak wykazali, że przy łagodnych założeniach każdą kolumnę można doskonale odzyskać z dużym prawdopodobieństwem z niekompletnej wersji, o ile przynajmniej do wpisy są obserwowane równomiernie losowo, ze stałą zależną od zwykłych warunków niespójności, geometrycznego układu podprzestrzeni i rozmieszczenia

Algorytm obejmuje kilka kroków: (1) lokalne sąsiedztwa; (2) lokalne podprzestrzenie; (3) wyrafinowanie podprzestrzeni; (4) pełne uzupełnienie macierzy. Metodę tę można zastosować do uzupełniania macierzy odległości w Internecie i identyfikacji topologii.

Algorytmy wypełniania macierzy niskiego rzędu

Zaproponowano różne algorytmy uzupełniania macierzy. Obejmuje to algorytm oparty na relaksacji wypukłej, algorytm oparty na gradiencie i algorytm oparty na naprzemiennej minimalizacji.

Relaksacja wypukła

Problem minimalizacji rang jest NP-trudny . przez Candèsa i Rechta, polega na utworzeniu wypukłej problemu i zminimalizowaniu normy która daje sumę osobliwych wartości ) zamiast która zlicza liczbę niezerowych wartości osobliwych M ). Jest to analogiczne do minimalizowania normy L1- zamiast normy L0- dla wektorów. Relaksację wypukłą można rozwiązać za pomocą programowania półokreślonego (SDP), zauważając, że problem optymalizacji jest równoważny

Złożoność użycia SDP do rozwiązania relaksacji wypukłej jest . Najnowocześniejsze solwery, takie jak SDPT3, mogą obsługiwać tylko macierze o rozmiarze do 100 na 100. Alternatywną metodą pierwszego rzędu, która w przybliżeniu rozwiązuje relaksację wypukłą, jest algorytm progowy wartości osobliwej wprowadzony przez Cai, Candès i Shen.

Candès i Recht pokazują, wykorzystując badanie zmiennych losowych w przestrzeniach Banacha , że ​​jeśli liczba obserwowanych wpisów jest rzędu max (załóżmy bez utraty ogólności ), problem minimalizacji rang ma unikalne rozwiązanie, które jest również rozwiązaniem jego wypukłej relaksacji z prawdopodobieństwem Displaystyle stała do . Jeśli ranga ( ), rozmiar zbiór obserwacji redukuje się do rzędu . Wyniki te są prawie optymalne, ponieważ minimalna liczba wpisów, które należy zaobserwować, aby problem uzupełniania macierzy nie był niedookreślony, jest rzędu .

Wynik ten poprawili Candès i Tao. Osiągają granice różniące się od granic optymalnych jedynie polilogarytmicznymi poprzez wzmocnienie założeń. Zamiast właściwości niespójności przyjmują właściwość silnej niespójności z parametrem . Właściwość ta stwierdza, że:

  1. za za i dla
  2. ograniczone wielkością przez

Intuicyjnie, silna niespójność macierzy stwierdza, że ​​​​ortogonalne rzuty standardowych wektorów bazowych na wielkości, które mają duże prawdopodobieństwo, gdyby pojedyncze wektory były

gdy , a liczba obserwowanych wpisów jest rzędu ( , problem minimalizacji rang ma unikalne rozwiązanie, które jest również rozwiązaniem jego wypukłej relaksacji z prawdopodobieństwem dla pewnej stałej . Dla arbitralnego obserwowanych wpisów wystarczająca do spełnienia tego twierdzenia jest rzędu

Innym podejściem do relaksacji wypukłej jest zminimalizowanie kwadratowej normy Frobeniusa przy ograniczeniu rangowym. Jest to równoważne rozwiązaniu

Wprowadzając ortogonalną macierz projekcji co oznacza modelowania rangi przez i biorąc wypukłą relaksację tego problemu, otrzymujemy następujący program półokreślony

Jeśli Y jest macierzą projekcji (tj. ma binarne wartości własne) w tej relaksacji, to relaksacja jest ciasna. W przeciwnym razie daje prawidłową dolną granicę ogólnego celu. Co więcej, można to przekształcić w wykonalne rozwiązanie z (nieco) większym celem poprzez chciwe zaokrąglenie wartości własnych Y. Co ciekawe, ta wypukła relaksacja może zostać rozwiązana przez naprzemienną minimalizację na X i Y bez rozwiązywania jakichkolwiek SDP, a zatem skaluje się poza typowe ograniczenia liczbowe najnowocześniejszych solwerów SDP, takich jak SDPT3 lub Mosek.

Podejście to jest szczególnym przypadkiem bardziej ogólnej techniki przeformułowania, którą można zastosować w celu uzyskania prawidłowej dolnej granicy dowolnego problemu niskiego rzędu, którego celem jest macierz-ślad-wypukłość.


Zejście gradientowe

i Oh rozważają wariant uzupełniania macierzy, w którym ranga macierzy która zostać , jest jako . Zakładają próbkowanie wpisów przez Bernoulliego proporcji , ograniczoną wielkość wpisów ( górna granica ) i stały numer warunku (gdzie największymi najmniejszymi wartościami osobliwymi . Ponadto zakładają, że dwa warunki niespójności są spełnione przez μ gdzie i są stałymi. Niech macierzą, która pasuje zbioru i wynosi 0 Następnie proponują następujący algorytm:

  1. Przytnij usuwając wszystkie obserwacje z kolumn o stopniu ustawiając wpisy w kolumnach na 0. Podobnie usuń wszystkie obserwacje z wierszy o stopniu większym niż .
  2. Projektuj na jego pierwsze główne składniki. . Wywołaj wynikową macierz .
  3. Rozwiąż \ to pewna funkcja regularyzacji przez opadanie gradientu z przeszukiwaniem linii . Zainicjuj w gdzie . Ustaw jako pewną funkcję zmuszającą do jeśli .
  4. Zwróć macierz .

Kroki 1 i 2 algorytmu dają macierz zbliżoną do prawdziwej macierzy ( przez pierwiastek błędu średniokwadratowego (RMSE) ) z dużym prawdopodobieństwem. szczególności , dla pewnej stałej do . normę Frobeniusa . Należy zauważyć, że pełny zestaw założeń nie jest potrzebny do utrzymania tego wyniku. Warunek niespójności, na przykład, wchodzi w grę tylko w dokładnej rekonstrukcji. Wreszcie, chociaż przycinanie może wydawać się sprzeczne z intuicją, ponieważ obejmuje wyrzucanie informacji, zapewnia rzutowanie na jego pierwsze składowe , co daje więcej informacji o podstawowej macierzy niż o obserwowanych wpisach.

W kroku 3 przestrzeń macierzy kandydujących można zmniejszyć, zauważając, że problem wewnętrznej minimalizacji ma to samo rozwiązanie dla jak dla gdzie R ortonormalne przez . Następnie można wykonać zejście gradientowe nad iloczynem krzyżowym dwóch rozmaitości Grassmana . Jeśli i obserwowany zestaw wpisów jest rzędu , macierz zwrócona przez krok 3 jest dokładnie . Wtedy algorytm jest optymalny pod względem rzędu, ponieważ wiemy, że aby problem uzupełniania macierzy nie był niedookreślony , liczba wpisów musi być rzędu .

Naprzemienna minimalizacja metodą najmniejszych kwadratów

Naprzemienna minimalizacja reprezentuje szeroko stosowane i empirycznie skuteczne podejście do znajdowania macierzy niskiego rzędu, które najlepiej pasują do danych. Na przykład w przypadku problemu uzupełniania macierzy niskiego rzędu ta metoda jest uważana za jedną z najdokładniejszych i najskuteczniejszych i stanowiła główny składnik zwycięskiej pracy w zadaniu Netflix. W podejściu naprzemiennej minimalizacji docelowa macierz niskiego rzędu jest zapisywana w postaci dwuliniowej :

;

algorytm następnie na najlepsze . Chociaż ogólny problem nie jest wypukły, każdy podproblem jest zwykle wypukły i można go skutecznie rozwiązać. Jain, Netrapalli i Sanghavi dali jedną z pierwszych gwarancji wykonania naprzemiennej minimalizacji zarówno dla uzupełniania macierzy, jak i wykrywania macierzy.

Algorytm naprzemiennej minimalizacji można postrzegać jako przybliżony sposób rozwiązania następującego niewypukłego problemu:

Algorytm AltMinComplete zaproponowany przez Jain, Netrapalli i Sanghavi jest wymieniony tutaj:

  1. Wejście : zestaw , wartości
  2. Podział na podzbiory z każdym element należący do jednego z z równym prawdopodobieństwem (próbkowanie z zastępowaniem) Ω {\ Displaystyle \ Omega
  3. tj. górne lewe wektory liczby pojedynczej
  4. Przycinanie : wszystkie elementy , które mają większą niż do zera i ortonormalizujemy kolumny
  5. dla zrobić
  6. koniec dla
  7. powrót

Pokazali to obserwując losowe wpisy niespójnej macierzy może w _ Jeśli chodzi o złożoność próbki ( większego niż relaksacja wypukła. Jednak empirycznie wydaje się, że tak nie jest, co sugeruje, że granice złożoności próbki można jeszcze bardziej zawęzić. Pod względem złożoności czasowej pokazali, że AltMinComplete potrzebuje czasu

.

Warto zauważyć, że chociaż metody oparte na relaksacji wypukłej mają rygorystyczną analizę, algorytmy oparte na naprzemiennej minimalizacji są bardziej skuteczne w praktyce. [ potrzebne źródło ]

Aplikacje

Candès i Plan podsumowali kilka zastosowań uzupełniania macierzy w następujący sposób:

Filtrowanie zespołowe

Filtrowanie zespołowe polega na dokonywaniu automatycznych prognoz dotyczących zainteresowań użytkownika poprzez zbieranie informacji o gustach wielu użytkowników. Firmy takie jak Apple, Amazon, Barnes and Noble i Netflix próbują przewidzieć preferencje użytkowników na podstawie częściowej wiedzy. W tego rodzaju problemach z uzupełnianiem macierzy nieznana pełna macierz jest często uważana za niską, ponieważ tylko kilka czynników zazwyczaj wpływa na gusta lub preferencje jednostki.

Identyfikacja systemu

Mając kontrolę, chciałoby się dopasować liniowy, niezmienny w czasie model przestrzeni stanów w czasie dyskretnym

sekwencji i . Wektor systemu w czasie i to kolejność modelu systemu. Z pary wejście / chciałoby się odzyskać macierze stan początkowy . Ten problem można również postrzegać jako problem uzupełniania macierzy niskiego rzędu.

Lokalizacja internetu rzeczy (IoT).

Problem lokalizacji (lub pozycjonowania globalnego) pojawia się naturalnie w sieciach czujników IoT. Problem polega na odzyskaniu mapy czujnika w przestrzeni euklidesowej z lokalnego lub częściowego zestawu odległości parami. Zatem jest to problem uzupełniania macierzy o randze drugiej, jeśli czujniki znajdują się w płaszczyźnie 2-D, i trzeciej, jeśli znajdują się w przestrzeni 3-D.

Odzyskiwanie sieci społecznościowych

Większość rzeczywistych sieci społecznościowych ma macierze odległości niskiego rzędu. Kiedy nie jesteśmy w stanie zmierzyć całej sieci, co może wynikać z takich przyczyn, jak prywatne węzły, ograniczona pamięć lub zasoby obliczeniowe, znamy tylko ułamek wpisów dotyczących odległości. Sieci przestępcze są dobrym przykładem takich sieci. Do odzyskania tych nieobserwowanych odległości można użyć Matrix Completion niskiego poziomu.

Zobacz też