Dekompozycja rang tensorowych

W wieloliniowej rozkład tensora rangi lub jest rozkładem tensora pod względem sumy minimum tensory Jest to problem otwarty.

poliadyczny (CPD) najlepiej pasujące dla . Dekompozycja CP znalazła pewne zastosowania w językoznawstwie i chemometrii . Ranking CP został wprowadzony przez Franka Laurena Hitchcocka w 1927 r., a później kilkakrotnie ponownie odkryta, zwłaszcza w psychometrii. Dekompozycja CP jest określana jako CANDECOMP, PARAFAC lub CANDECOMP/PARAFAC (CP). Rozkład rang PARAFAC2 nie został jeszcze zbadany.

Inne popularne uogólnienie macierzy SVD, znane jako rozkład wartości osobliwych wyższego rzędu, oblicza macierze trybu ortonormalnego i znalazło zastosowanie w ekonometrii , przetwarzaniu sygnałów , wizji komputerowej , grafice komputerowej , psychometrii .

Notacja

Zmienna skalarna jest oznaczona małymi literami kursywą, skalarna jest oznaczona wielką kursywą literą. .

Indeksy są oznaczane przez kombinację małych i wielkich liter kursywy, 1 Wiele wskaźników, które można napotkać, odnosząc się do wielu trybów tensora, jest dogodnie oznaczonych przez gdzie .

oznaczony małymi pogrubionymi literami Times Roman, oznaczona pogrubionymi dużymi literami .

Tensor wyższego rzędu jest oznaczony literami kaligraficznymi, . Element tensora rzędu oznaczony przez lub .

Definicja

Tensor danych to zbiór wielowymiarowych obserwacji zorganizowanych w tablicę M -drogową, gdzie M = C +1. tensor można przedstawić za pomocą odpowiednio dużego tensora jako liniowej kombinacji tensorów rangi 1:

gdzie i gdzie . Gdy liczba terminów w powyższym wyrażeniu jest minimalna, wówczas nazywa się rangą tensora, a rozkład jest często określany jako rozkład rang (tensorowych) , minimalny rozkład CP lub kanoniczny rozkład poliadyczny (CPD) . Jeśli liczba terminów nie jest minimalna, to powyższy rozkład jest często określany jako CANDECOMP/PARAFAC , rozkład poliadyczny”.

Ranga tensorowa

W przeciwieństwie do macierzy obliczanie rzędu tensora jest NP-trudne . Jedyny godny uwagi, dobrze zrozumiany przypadek składa się z tensorów w , którego rangę można uzyskać z postaci normalnej Kroneckera Weierstrassa liniowej matrycy ołówka , którą reprezentuje tensor. Istnieje prosty algorytm czasu wielomianowego do potwierdzania, że ​​tensor ma rangę 1, a mianowicie dekompozycja na wartości osobliwe wyższego rzędu .

Ranga tensora zer jest umownie zerowa. Ranga pod .

Zależność od pola

Ranga tensora zależy od pola, w którym tensor jest rozkładany. Wiadomo, że niektóre tensory rzeczywiste mogą dopuszczać złożony rozkład, którego stopień jest ściśle mniejszy niż stopień rzeczywistego rozkładu tego samego tensora. Jako przykład rozważ następujący rzeczywisty tensor

gdzie . Wiadomo, że stopień tego tensora nad liczbami rzeczywistymi wynosi 3, podczas gdy jego stopień zespolony wynosi tylko 2, ponieważ jest sumą zespolonego tensora rangi 1 z jego złożonym koniugatem , a mianowicie

gdzie .

W przeciwieństwie do tego, ranga macierzy rzeczywistych nigdy nie zmniejszy się pod rozszerzeniem pola do : ranga macierzy i ranga macierzy zespolonej pokrywają się dla macierzy rzeczywistych

Ranga ogólna

Ogólna ranga _ _ Zariskiego zbioru tensorów rang cała przestrzeń . W przypadku tensorów zespolonych tensory rang co najwyżej gęsty zbiór wspomnianej przestrzeni ma albo rangę mniejszą niż ranga ogólna, albo jest to granica w topologii euklidesowej sekwencji tensorów . W przypadku tensorów rzeczywistych zbiór tensorów rzędu co najwyżej tworzy tylko otwarty zbiór dodatniej miary w topologii euklidesowej. Mogą istnieć zbiory euklidesowo-otwarte tensorów rangi ściśle wyższej niż ranga rodzajowa. Wszystkie rangi występujące na zbiorach otwartych w topologii euklidesowej nazywane są rangami typowymi . Najmniejsza typowa ranga nazywana jest rangą rodzajową; ta definicja dotyczy zarówno tensorów zespolonych, jak i rzeczywistych. Ogólny rząd przestrzeni tensorowych był początkowo badany w 1983 roku przez Volkera Strassena .

Jako ilustrację powyższych koncepcji wiadomo, że zarówno 2, jak i 3 są typowymi rangami podczas gdy ogólna ranga do wynosi 2. W praktyce oznacza to, że losowo próbkowany tensor rzeczywisty (z ciągłej miary prawdopodobieństwa w przestrzeni tensorów) o rozmiarze będzie tensorem rangi 1 z prawdopodobieństwem zerowym, tensorem rangi 2 z dodatnim prawdopodobieństwem i rangi Z drugiej strony losowo próbkowany tensor zespolony o tej samej wielkości będzie tensorem rangi 1 z prawdopodobieństwem zerowym, tensorem rangi 2 z prawdopodobieństwem jeden i tensorem rangi 3 z prawdopodobieństwem zero. Wiadomo nawet, że ogólny tensor rzeczywisty rangi 3 w będzie miał rangę zespoloną równą 2.

Ogólna ranga przestrzeni tensorowych zależy od rozróżnienia między zrównoważonymi i niezrównoważonymi przestrzeniami tensorowymi. Przestrzeń tensorowa , gdzie nazywa się niezrównoważonym , gdy

nazywa się to zrównoważonym .

Niesymetryczne przestrzenie tensorowe

Kiedy pierwszy czynnik jest bardzo duży w stosunku do innych czynników w iloczynze tensorowym, wówczas przestrzeń tensorowa zasadniczo zachowuje się jak przestrzeń macierzowa. Wiadomo, że ogólna ranga tensorów żyjących w niezrównoważonych przestrzeniach tensorowych jest równa

prawie wszędzie . Dokładniej, ranga każdego tensora w niezrównoważonej przestrzeni tensorowej } jest jakimś nieokreślonym zbiorem zamkniętym w topologii Zariskiego, równym powyższej wartości.

Zrównoważone przestrzenie tensorowe

Oczekiwany ogólny rząd tensorów żyjących w zrównoważonej przestrzeni tensorowej jest równy

prawie wszędzie dla zespolonych tensorów i na zbiorze euklidesowym otwartym dla rzeczywistych tensorów, gdzie

ranga _ jest jakimś nieokreślonym zbiorem zamkniętym w topologii Zariskiego i oczekuje się, że będzie równy powyższej wartości. dla rzeczywistych tensorów jest najmniejszą rangą, która ma wystąpić na zbiorze dodatniej miary euklidesowej. R jest często określany jako oczekiwany rodzajowy rząd tensorowej tylko Wiadomo, że prawdziwa ranga rodzajowa zawsze spełnia

Abo Ottavianiego stwierdza , z następującymi wyjątkowymi przypadkami:

W każdym z tych wyjątkowych przypadków ogólna ranga jest znana jako . Zauważ, że podczas gdy zbiór tensorów rzędu 3 w jest wadliwy (13, a nie oczekiwane 14), ogólna ranga w tej przestrzeni jest nadal oczekiwana, 4. Podobnie zestaw tensory rangi 5 w ogólna ranga w tej przestrzeni jest nadal

Hipoteza AOP została całkowicie udowodniona w wielu szczególnych przypadkach. Lickteig wykazał już w 1985 r., że ) że . W 2011 r. dokonali przełomu Catalisano, Geramita i Gimigliano, którzy udowodnili, że oczekiwany wymiar zbioru tensory formatu są w przypadku czteroczynnikowym, ale ten przypadek to nadal 4. W konsekwencji dla wszystkich tensorów binarnych.

Maksymalna ranga

Maksymalna ranga , jaką może przyjąć którykolwiek z tensorów w przestrzeni tensorowej, jest ogólnie nieznana; brakuje nawet przypuszczenia na temat tej maksymalnej rangi. Obecnie najlepsza ogólna górna granica stwierdza, że ​​​​maksymalna ranga r } , spełnia

gdzie jest (najmniejszą) ogólną rangą fa . Powszechnie wiadomo, że powyższa nierówność może być ścisła. Na przykład ogólny rząd tensorów w to dwa, więc powyższa granica daje , podczas gdy wiadomo, że maksymalna ranga wynosi 3.

Stopień graniczny

rangi nazywany jest tensorem granicznym jeśli istnieje ciąg tensorów rangi, którego granica jest jest . Jeśli jest najmniejszą wartością, dla której istnieje taka zbieżna sekwencja, to nazywa się ją graniczną ZA . Dla tensorów rzędu 2, tj. Macierzy, ranga i ranga graniczna się pokrywają, jednak dla tensorów mogą się różnić Tensory graniczne zostały po raz pierwszy zbadane w kontekście szybkich przybliżonych algorytmów mnożenia macierzy przez Biniego, Lottiego i Romaniego w 1980 roku.

Klasycznym przykładem tensora granicznego jest tensor rzędu 3

Można to dowolnie dobrze przybliżyć za pomocą następującej sekwencji tensorów rangi 2

jak . Dlatego jego ranga graniczna wynosi 2, czyli dokładnie mniej niż jej ranga. Gdy dwa wektory są ortogonalne, ten przykład jest również znany jako stan W.

Nieruchomości

Identyfikowalność

Z definicji czystego tensora wynika, że wtedy i tylko wtedy, gdy istnieje takie, że i dla wszystkich m . Z tego powodu parametry rzędu nazywane są możliwymi do zidentyfikowania lub zasadniczo unikalnymi. A ranga - tensor nazywa się identyfikowalnym , jeśli każdy jego rozkładów rang tensorowych jest sumą tego samego zestawu różnych tensorów gdzie s mają rangę 1. Możliwa do zidentyfikowania ranga zasadniczo unikalny rozkład

i wszystko Rozkłady rang tensorowych można uzyskać przez permutację kolejności sum. Zauważ, że w rozkładzie rang tensorowych wszystkie różne, ponieważ w przeciwnym razie ranga byłaby co najwyżej .

Ogólna identyfikowalność

Tensory rzędu 2 w , tj. macierze, nie są identyfikowalne dla . Wynika to zasadniczo z obserwacji

gdzie jest odwracalną , , ZA i . Można pokazać, że dla każdego gdzie jest zamkniętym w topologii Zariskiego, rozkład po prawej stronie jest sumą innego zestawu tensorów rangi 1 niż rozkład po lewej stronie, co powoduje, że tensory rzędu 2 rangi zidentyfikowania.

Sytuacja zmienia się całkowicie dla tensorów wyższego rzędu w z i wszystkimi . Dla uproszczenia zapisu załóżmy bez utraty ogólności, że czynniki są uporządkowane tak, że . Niech oznaczają zbiór tensorów rangi ograniczony przez . Następnie udowodniono, że następujące stwierdzenie jest poprawne za pomocą dowodu wspomaganego komputerowo dla wszystkich przestrzeni wymiarowych i przypuszcza się, że jest ogólnie ważne:

W topologii Zariskiego istnieje zbiór zamknięty taki, że tensor jest identyfikowalny ( w tym przypadku nazywa się go ogólnie identyfikowalnym ), chyba że zachodzi jeden z następujących wyjątkowych przypadków:

  1. Ranga jest zbyt duża: ;
  2. Przestrzeń jest niezrównoważona pod względem identyfikowalności, tj. , a ranga jest za duża: ;
  3. Przestrzeń to wadliwy przypadek ranga to ;
  4. Przestrzeń jest przypadkiem wadliwym gdzie , a ranga to ;
  5. Przestrzeń to , a ranga to ;
  6. Przestrzeń to a ranga to fa ; Lub
  7. Przestrzeń to , a ranga to .
  8. Przestrzeń jest idealna, tj. jest liczbą całkowitą, a ranga to .

W tych wyjątkowych przypadkach ogólna (a także minimalna) liczba złożonych dekompozycji wynosi

  • okazał się być w pierwszych 4 przypadkach;
  • okazał się dwa w przypadku 5;
  • oczekuje się, że będzie to sześć w przypadku 6;
  • okazały się dwa w przypadku 7; I
  • oczekuje się, że będzie co najmniej dwa w przypadku 8, z wyjątkiem dwóch możliwych do zidentyfikowania przypadków i .

ogólny i _ -niezrównoważony oczekuje się, że będzie identyfikowalny (moduł wyjątkowych przypadków w małych przestrzeniach).

Źle postawiony problem aproksymacji standardowej

rang prosi o rozkład rangi (w zwykłej topologii euklidesowej) do tensora , . Oznacza to, że dąży się do rozwiązania

gdzie _ _ _

W artykule de Silvy i Lima z 2008 roku wykazano, że powyższy standardowy problem aproksymacji może być źle postawiony . Rozwiązanie powyższego problemu może czasami nie istnieć, ponieważ zbiór, na którym się optymalizuje, nie jest domknięty. W związku z tym minimalizator może nie istnieć, mimo że istnieje infimum. W szczególności wiadomo, że pewne tak zwane tensory graniczne można dowolnie dobrze aproksymować za pomocą ciągu tensorów rang co najwyżej , mimo że granica ciągu zbiega się do tensora rangi ściśle wyższego niż . Tensor rangi 3

można dowolnie dobrze przybliżyć za pomocą następującej sekwencji tensorów rangi 2

jak . Ten przykład zgrabnie ilustruje ogólną zasadę, że sekwencja tensorów rangi która zbiega się do tensora ściśle wyższego rzędu, musi dopuszczać co najmniej dwa indywidualne wyrazy rangi 1, których normy stają się nieograniczone Stwierdzone formalnie, gdy sekwencja

tę właściwość, że topologii euklidesowej) as , to powinno istnieć co najmniej takie, że

jak . Zjawisko to jest często spotykane podczas próby przybliżenia tensora za pomocą algorytmów optymalizacji numerycznej. Nazywa się to czasem problemem rozbieżnych komponentów . Ponadto wykazano, że losowy tensor niskiego rzędu nad liczbami rzeczywistymi może nie dopuszczać przybliżenia rzędu 2 z dodatnim prawdopodobieństwem, co prowadzi do zrozumienia, że ​​problem złego ustawienia jest ważnym czynnikiem, który należy wziąć pod uwagę przy stosowaniu rozkładu rang tensorowych.

Typowe częściowe rozwiązanie problemu złego ustawienia polega na nałożeniu dodatkowego ograniczenia nierówności, które ogranicza normę poszczególnych wyrazów rangi 1 przez pewną stałą. Inne ograniczenia, które skutkują zbiorem zamkniętym, a zatem dobrze postawionym problemem optymalizacji, obejmują narzucenie pozytywności lub ograniczonego iloczynu wewnętrznego ściśle mniejszego niż jedność między wyrazami rangi 1 występującymi w poszukiwanym rozkładzie.

Obliczanie CPD

Algorytmy naprzemienne:

  • naprzemienna metoda najmniejszych kwadratów (ALS)
  • naprzemienna diagonalizacja po plasterkach (ASD)

Algorytmy bezpośrednie:

  • Algorytmy oparte na ołówku
  • Algorytmy oparte na momentach

Ogólne algorytmy optymalizacji:

Ogólne algorytmy rozwiązywania układów wielomianowych:

Aplikacje

W uczeniu maszynowym rozkład CP jest głównym składnikiem uczenia się probabilistycznych modeli zmiennych ukrytych za pomocą techniki dopasowywania momentów. Rozważmy na przykład model z wieloma widokami, który jest probabilistycznym modelem zmiennych ukrytych. W tym modelu generowanie próbek jest zakładane w następujący sposób: istnieje ukryta zmienna losowa, której nie obserwuje się bezpośrednio, biorąc pod uwagę, że istnieje kilka warunkowo niezależnych zmiennych losowych znanych jako różne „widoki” ukrytej zmiennej. Dla że istnieją trzy symetryczne -state kategoryczna ukryta zmienna . Wówczas empiryczny trzeci moment tego modelu zmiennej latentnej można zapisać jako: .

W zastosowaniach takich jak modelowanie tematyczne można to interpretować jako współwystępowanie słów w dokumencie. Wtedy wartości własne tego empirycznego tensora momentu można interpretować jako prawdopodobieństwo wyboru określonego tematu i każdej kolumny macierzy czynników odpowiada prawdopodobieństwom słów w słowniku w odpowiednim temacie.

Zobacz też

Dalsza lektura

Linki zewnętrzne