Szkic tensora

W statystyce , uczeniu maszynowym i algorytmach szkic tensorowy jest rodzajem redukcji wymiarowości , która jest szczególnie wydajna w przypadku zastosowania do wektorów o strukturze tensorowej . Taki szkic może być użyty do przyspieszenia jawnych metod jądra , łączenia dwuliniowego w sieciach neuronowych i jest kamieniem węgielnym w wielu algorytmach numerycznej algebry liniowej.

Definicja matematyczna

Z matematycznego punktu widzenia macierz redukcji wymiarów lub macierz szkicowania jest macierzą, gdzie ${\ Displaystyle M \ in \ mathbb {R} ^ {k \ razy d}}$ , takie jak ${\ displaystyle k <d}$ że dla dowolnego wektora ${\ Displaystyle x \ in \ mathbb {R} ^ {d}}$

{\ Displaystyle |\|Mx \|_ {2}-\|x\|_ {2}|<\ varepsilon \|x\|_ {2}}

z dużym prawdopodobieństwem. Innymi słowy, $normę$ wektorów z małym błędem.

$}$ dodatkową właściwość, że jeśli $re$ R takie, że ${\ Displaystyle d_ {1} d_ {2} = d}$ , transformacja ${\ displaystyle M (y \ otimes z)}$ można obliczyć wydajniej. Tutaj ${\ displaystyle \ otimes}$ oznacza produkt Kroneckera , a nie produkt zewnętrzny , chociaż oba są powiązane spłaszczeniem .

Przyspieszenie osiąga się przez pierwsze przepisanie ${\ Displaystyle M (y \ otimes z) = M'y \ circ M''z}$ , gdzie ${\ Displaystyle \ circ }$ oznacza iloczyn elementarny ( Hadamarda ). Każdy z ${\ Displaystyle M'y}$ i ${\ Displaystyle M''z}$ można obliczyć w czasie odpowiednio ${\ Displaystyle O (kd_ {1})}$ i ${\ Displaystyle O (kd_ {2})} ;$ w tym iloczyn Hadamarda daje całkowity czas ${\ Displaystyle O (d_ {1} d_ {2} + kd_ {1} + kd_ {2})}$ . W większości przypadków ta metoda jest znacznie szybsza niż pełne ${\ Displaystyle M (y \ otimes z)}$ wymagające ${\ Displaystyle O (kd) = O (kd_ {1} d_ {2})}$ czasu.

$oszczędności$ , takich jak są jeszcze bardziej

Historia

Termin szkic tensorowy powstał w 2013 roku, opisując technikę Rasmusa Pagha z tego samego roku. Pierwotnie rozumiano, że używa się szybkiej transformaty Fouriera do szybkiego splotu szkiców zliczania . Późniejsze prace badawcze uogólniły to do znacznie większej klasy redukcji wymiarowości poprzez losowe osadzenie Tensor.

Losowe osadzenie tensorowe zostało wprowadzone w 2010 roku w artykule na temat prywatności różnicowej i zostało po raz pierwszy przeanalizowane przez Rudelsona i in. w 2012 r. w kontekście rzadkiego ożywienia.

Avron i in. jako pierwsi zbadali właściwości osadzania podprzestrzeni szkiców tensorowych, ze szczególnym uwzględnieniem zastosowań w jądrach wielomianowych . W tym kontekście szkic jest wymagany nie tylko do zachowania normy każdego pojedynczego wektora z pewnym prawdopodobieństwem, ale także do zachowania normy wszystkich wektorów w każdej indywidualnej podprzestrzeni liniowej . Jest to znacznie silniejsza właściwość i wymaga większych rozmiarów szkiców, ale pozwala na bardzo szerokie zastosowanie metod jądra, jak opisano w książce Davida Woodruffa.

Losowe projekcje tensorowe

Produkt podziału twarzy jest zdefiniowany jako iloczyn tensorowy rzędów (został zaproponowany przez V. Slyusara w 1996 r. Do zastosowań w radarach i antenach cyfrowych ). Bardziej bezpośrednio, niech i ${\ Displaystyle \ mathbf {C} \ in \ mathbb {R} ^ {3 \ razy 3}}$ i ${\ Displaystyle \ mathbf {D} \ in \mathbb {R} ^{3\times 3}}$ będą dwiema macierzami. Następnie iloczyn rozszczepiający twarz ${\ Displaystyle \ mathbf {C} \ punktor \ mathbf {D}}$ ${\ Displaystyle \ mathbf {C} \ bullet \ mathbf {D} = \ lewo [{\ rozpocząć {tablica}} {c} \ mathbf {C} _ {1} \ czasami \ mathbf {D} _ {1} \\ \hline \mathbf {C} _{2}\otimes \mathbf {D} _{2}\\\hline \mathbf {C} _{3}\otimes \mathbf {D} _{3}\\\end {tablica}}\right]=\left[{\begin{tablica}{ccccccccc}\mathbf {C} _{1,1}\mathbf {D} _{1,1}&\mathbf {C} _{ 1,1}\mathbf {D} _{1,2}&\mathbf {C} _{1,1}\mathbf {D} _{1,3}&\mathbf {C} _{1,2} \mathbf {D} _{1,1}&\mathbf {C} _{1,2}\mathbf {D} _{1,2}&\mathbf {C} _{1,2}\mathbf {D } _{1,3}&\mathbf {C} _{1,3}\mathbf {D} _{1,1}&\mathbf {C} _{1,3}\mathbf {D} _{1 ,2}&\mathbf {C} _{1,3}\mathbf {D} _{1,3}\\\hline \mathbf {C} _{2,1}\mathbf {D} _{2, 1}&\mathbf {C} _{2,1}\mathbf {D} _{2,2}&\mathbf {C} _{2,1}\mathbf {D} _{2,3}&\ mathbf {C} _{2,2}\mathbf {D} _{2,1}&\mathbf {C} _{2,2}\mathbf {D} _{2,2}&\mathbf {C} _{2,2}\mathbf {D} _{2,3}&\mathbf {C} _{2,3}\mathbf {D} _{2,1}&\mathbf {C} _{2, 3}\mathbf {D} _{2,2}&\mathbf {C} _{2,3}\mathbf {D} _{2,3}\\\hline \mathbf {C} _{3,1 }\mathbf {D} _{3,1}&\mathbf {C} _{3,1}\mathbf {D} _{3,2}&\mathbf {C} _{3,1}\mathbf { D} _{3,3}&\mathbf {C} _{3,2}\mathbf {D} _{3,1}&\mathbf {C} _{3,2}\mathbf {D} _{ 3,2}&\mathbf {C} _{3,2}\mathbf {D} _{3,3}&\mathbf {C} _{3,3}\mathbf {D} _{3,1} &\mathbf {C} _{3,3}\mathbf {D} _{3,2}&\mathbf {C} _{3,3}\mathbf {D} _{3,3}\end{tablica }}\Prawidłowy].}$ do Powodem, dla którego ten produkt jest użyteczny, jest następująca tożsamość:

{\ Displaystyle (\ mathbf {C} \bullet \mathbf {D} )(x\otimes y)=\mathbf {C} x\circ \mathbf {D} y=\left[{\begin{array}{c }(\mathbf {C} x) _{1}(\mathbf {D} y)_{1}\\(\mathbf {C} x)_{2}(\mathbf {D} y)_{2}\\\vdots \end{tablica }}\Prawidłowy],}

gdzie $)$ elementarnym ( Hadamarda . Ponieważ operację tę można obliczyć w czasie liniowym, $ją$ pomnożyć na wektorach o strukturze tensorowej znacznie szybciej niż

Konstrukcja z szybką transformatą Fouriera

Szkic tensorowy Phama i Pagha oblicza do $\ Displaystyle C ^ {(1)} x \ ast C ^ {(2)} y}$ , gdzie do $\ Displaystyle do ^ {(1)$ $są$ niezależnymi $macierzami$ szkicu zliczania , splotem wektorowym . Pokazują, że w zdumiewający sposób jest to równe ${\ Displaystyle C (x \ otimes y)}$ - szkic zliczania iloczynu tensorowego!

Okazuje się, że zależność tę można postrzegać w kategoriach iloczynu dzielącego twarz jako

{\ Displaystyle C ^ {(1)} x \ as C ^ {(2)} y = {\mathcal {F}}^{-1}({\mathcal {F}}C^{(1)}x\circ {\mathcal {F}}C^{(2)}y)}

, gdzie jest

macierzą

transformacji .

Ponieważ jest macierzą ortonormalną , nie ma to wpływu na normę do $fa$ $}}$ $}$ $Displaystyle {\$ i można je zignorować. Pozostaje to, że do $\ Displaystyle C \ sim {\ mathcal {C}} ^ {(1)} \ bullet {\ mathcal {C}} ^ {(2)}}$ .

Z drugiej strony,

{\ Displaystyle {\ mathcal {F}} (C ^ {(1)} x \ as C ^ {(2)} y) = {\ mathcal {F}} C ^ {(1)} x \ circ {\ mathcal {F}}C^{(2)}y=({\mathcal {F}}C^{(1)}\bullet {\mathcal {F}}C^{(2)})(x\oraz y)}

.

Zastosowanie do macierzy ogólnych

Problem z oryginalnym algorytmem szkicu tensorowego polegał na tym, że wykorzystywał on macierze szkicu zliczania , które nie zawsze są bardzo dobrymi redukcjami wymiarów.

W 2020 roku wykazano, że do stworzenia szkicu tensorowego wystarczą dowolne macierze z wystarczająco losowymi niezależnymi wierszami. Pozwala to na stosowanie macierzy o silniejszych gwarancjach, takich jak rzeczywiste macierze Gaussa Johnsona Lindenstraussa .

W szczególności otrzymujemy następujące twierdzenie

Rozważ macierz z wierszami

iid

{\ Displaystyle T_ {1}, \ kropki, T_ {m} \ in \ mathbb {R} ^ {d}

, mi

{\ Displaystyle E [(T_ {1} x) ^ {2}] = \| x \|_ {2} ^ {2}

}

{\ Displaystyle E [(T_ {1} x) ^ {p}] ^ {1/p} \ równoważnik {\ sqrt {ap}} \ | x \ | _ { 2}}

. Niech

{\ Displaystyle T ^ {(1)}, \ kropki, T ^ {(c)}}

będą niezależne, składające się z

{\ Displaystyle T}

i

{\ Displaystyle M = T ^ {(1)} \ punktor \ kropki \ punktor T ^ {(c)}}

.

wtedy

_

_ displaystyle 1-\ delta}

_ dla dowolnego wektora

{\ displaystyle x}

, jeśli

{\ Displaystyle m = (4a) ^ {2c} \ varepsilon ^ {- 2} \ log 1 / \ delta +(2ae)\varepsilon ^{-1}(\log 1/\delta )^{c}}

.

W szczególności, jeśli wpisy są $\ pm 1}$ $\ Displaystyle$ ${\ Displaystyle m = O (\ varepsilon ^ {- 2} \ log 1 / \ delta + \ varepsilon ^ {- 1} ({\ tfrac {1} {c}} \ log 1 / \ delta) ^ { c})}$ otrzymujemy , który pasuje do normalnego Twierdzenie Johnsona $_$ _ $_$ _

Artykuł pokazuje również, że zależność od ${\ Displaystyle \ varepsilon ^ {- 1} ({\ tfrac {1} {c}} \ log 1/\ delta) ^ {c}}$ jest konieczne w przypadku konstrukcji wykorzystujących projekcje losowe tensorowe z wpisami Gaussa .

Wariacje

Konstrukcja rekurencyjna

Ze względu na wykładniczą zależność od ${\ displaystyle c}$ szkicach tensorowych opartych na iloczynie dzielącym twarz , w 2020 roku opracowano inne podejście, które stosuje się do

{\ Displaystyle M (x \ czasami y \ czasami \ cdots) = M ^ {(1)} (x \otimes (M^{(2)}y\otimes \cdots ))}

Możemy osiągnąć $pozwalając$ ,

{\ Displaystyle M = M ^ { (c)}(M^{(c-1)}\otimes I_{d})(M^{(c-2)}\otimes I_{d^{2}})\cdots (M^{(1 )}\czasami I_{d^{c-1}})}

.

W tej metodzie stosujemy tylko ogólną metodę szkicowania tensorów, aby uporządkować 2 tensory, co pozwala uniknąć zależności wykładniczej w liczbie rzędów.

Można udowodnić, że $wymiarowości$ $takich$ $zwiększa$ o czynnik .

Szybkie konstrukcje

Szybka transformata Johnsona-Lindenstraussa jest macierzą redukcji wymiarowości

$}$ $re$ macierz obliczenie iloczynu wektora $kd$ zajmuje . Transformacja Fast Johnson Lindenstrauss (FJLT) została wprowadzona przez Ailona i Chazelle w 2006 roku.

Wersja tej metody przyjmuje gdzie ${\ displaystyle M = \ operatorname {SHD}}$

$jest$ macierzą ukośną $której$ $_$ każdy jest _

Mnożenie $wektorowe$ $_$ obliczyć _

${\ Displaystyle H}$ to macierz Hadamarda , która umożliwia mnożenie macierzy i wektorów w czasie ${\ Displaystyle O (d \ log d)}$
$}$ $zer$ to macierz próbkowania, która składa , z wyjątkiem pojedynczej 1 w każdym rzędzie.

$przekątnej ,$ taką, która ma iloczyn tensorowy wartości na być w pełni niezależną, możliwe jest obliczenie ${\ Displaystyle \ \ operatorname {SHD} (x\czasami y)}$ szybko.

Na przykład niech ${\ Displaystyle \ rho, \ sigma \ in \ {-1,1 \} ^ {2}}$ będą dwoma niezależnymi $1}$ ${\ Displaystyle \$ $przekątną$ $z$ niech macierzą ukośną . Możemy następnie podzielić ${\ Displaystyle \ nazwa operatora {SHD} (x \ czasami y)}$ w następujący sposób:

{\ Displaystyle {\ rozpocząć {wyrównane} & \ nazwa operatora {SHD} (x \ czasami y) \\& \ quad = {\ rozpocząć {bmatrix} 1&0&0&0\\0&0&1&0\\0&1&0&0\koniec {bmatrix}}}} {\ rozpocząć { bmatrix}1&1&1&1\\1&-1&1&-1\\1&1&-1&-1\\1&-1&-1&1\end{bmatrix}}{\begin{bmatrix}\sigma _{1}\rho _{1}&0&0&0\ \0&\sigma _{1}\rho _{2}&0&0\\0&0&\sigma _{2}\rho _{1}&0\\0&0&0&\sigma _{2}\rho _{2}\\\end {bmatrix}}{\begin{bmatrix}x_{1}y_{1}\\x_{2}y_{1}\\x_{1}y_{2}\\x_{2}y_{2}\end {bmatrix}}\\[5pt]&\quad =\left({\begin{bmatrix}1&0\\0&1\\1&0\end{bmatrix}}\bullet {\begin{bmatrix}1&0\\1&0\\0&1 \end{bmatrix}}\right)\left({\begin{bmatrix}1&1\\1&-1\end{bmatrix}}\otimes {\begin{bmatrix}1&1\\1&-1\end{bmatrix}} \right)\left({\begin{bmatrix}\sigma _{1}&0\\0&\sigma _{2}\\\end{bmatrix}}\otimes {\begin{bmatrix}\rho _{1} &0\\0&\rho _{2}\\\end{bmatrix}}\right)\left({\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix}}\otimes {\ begin{bmatrix}y_{1}\\y_{2}\end{bmatrix}}\right)\\[5pt]&\quad =\left({\begin{bmatrix}1&0\\0&1\\1&0\end {bmatrix}}\bullet {\begin{bmatrix}1&0\\1&0\\0&1\end{bmatrix}}\right)\left({\begin{bmatrix}1&1\\1&-1\end{bmatrix}}{ \begin{bmatrix}\sigma _{1}&0\\0&\sigma _{2}\\\end{bmatrix}}{\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix} }\,\otimes \,{\begin{bmatrix}1&1\\1&-1\end{bmatrix}}{\begin{bmatrix}\rho _{1}&0\\0&\rho _{2}\\\ end{bmatrix}}{\begin{bmatrix}y_{1}\\y_{2}\end{bmatrix}}\right)\\[5pt]&\quad ={\begin{bmatrix}1&0\\0&1\ \1&0\end{bmatrix}}{\begin{bmatrix}1&1\\1&-1\end{bmatrix}}{\begin{bmatrix}\sigma _{1}&0\\0&\sigma _{2}\\ \end{bmatrix}}{\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix}}\,\circ \,{\begin{bmatrix}1&0\\1&0\\0&1\end{ bmatrix}}{\begin{bmatrix}1&1\\1&-1\end{bmatrix}}{\begin{bmatrix}\rho _{1}&0\\0&\rho _{2}\\\end{bmatrix} }{\begin{bmatrix}y_{1}\\y_{2}\end{bmatrix}}.\end{wyrównane}}}

Innymi słowy, ${\ Displaystyle \ nazwa operatora {SHD} = S ^ {(1)} HD ^ {(1)} \ punktor S^{(2)}HD^{(2)}}$ , dzieli się na dwie transformacje Fasta Johnsona-Lindenstraussa, a całkowita redukcja wymaga czasu ${\ Displaystyle O (d_ {1} \ log d_ {1} + d_ {2} \ log d_ {2})}$ zamiast ${\ Displaystyle d_ {1 }d_{2}\log(d_{1}d_{2})}$ jak w przypadku podejścia bezpośredniego.

To samo podejście można rozszerzyć na obliczanie produktów wyższego stopnia, takich jak ${\ Displaystyle \ operatorname {SHD} (x \ otimes y \ otimes z)}$

Ahle i in. pokazuje, że jeśli ${\ Displaystyle \ operatorname {SHD}}$ ma ${\ Displaystyle \ varepsilon ^ {- 2} (\ log 1 / \ delta) ^ {c + 1 }}$ wierszy, a następnie ${\ Displaystyle |\|\ nazwa operatora {SHD} x\|_ {2}-\|x\||\ równoważnik \ varepsilon \|x\|_ {2}} dla dowolnego wektora x$ ∈ $^ {c}}}$ $Displaystyle x \ in \$ $mathbb {R} ^ {$ z prawdopodobieństwem , jednocześnie umożliwiając szybkie mnożenie z tensorami stopnia ${\ displaystyle c$

Jin i wsp. w tym samym roku wykazali podobny wynik dla bardziej ogólnej klasy macierzy zwanej RIP , która obejmuje podpróbkowane macierze Hadamarda. Pokazali, że te macierze umożliwiają podział na tensory, pod warunkiem, że liczba wierszy wynosi ${\ Displaystyle \ varepsilon ^ {- 2} (\ log 1 / \ delta) ^{2c-1}\log d}$ . w przypadku ${\ displaystyle c = 2}$ jest to zgodne z poprzednim wynikiem.

Te szybkie konstrukcje można ponownie połączyć z podejściem rekurencji wspomnianym powyżej, dając najszybszy ogólny szkic tensorowy.

Szkicowanie uwzględniające dane

Możliwe jest również wykonanie tak zwanego szkicowania tensorowego „świadomego danych”. Zamiast mnożenia losowej macierzy na danych, punkty danych są próbkowane niezależnie z pewnym prawdopodobieństwem zależnym od normy punktu.

Aplikacje

Jawne jądra wielomianowe

Metody jądra są popularne w uczeniu maszynowym , ponieważ dają zaprojektowanemu algorytmowi swobodę projektowania „przestrzeni cech”, w której można mierzyć podobieństwo ich punktów danych. Prosty klasyfikator binarny oparty na jądrze jest oparty na następujących obliczeniach:

{\ Displaystyle {\ kapelusz {y}} (\ mathbf {x '}) = \ operatorname {sgn} \ suma _{i=1}^{n}y_{i}k(\mathbf {x} _{i},\mathbf {x'} ),}

gdzie ${\ Displaystyle \ mathbf {x} _ {i} \ in \ mathbb {R} ^ {d}}$ to punkty danych, ${\ Displaystyle y_ {i}}$ to etykieta ${\ Displaystyle i} th punkt$ $jest$ albo -1, klasy ${\ Displaystyle \ mathbf {x'}}$ . Funkcja ${\ Displaystyle k: \ mathbb {R} ^ {d} \ razy \ mathbb {R} ^ {d} \ do \ mathbb {R}} to jądro$ . Typowymi przykładami są radialne jądro funkcji bazowej , ${\ Displaystyle k (x, x ') = \ exp (- \ | xx'\ |_{2}^{2})}$ i jądra wielomianowe, takie jak ${\ Displaystyle k (x, x ') = (1 + \ langle x, x' \ rangle) ^ {2}}$ .

Używana w ten sposób metoda jądra nazywana jest „niejawną”. Czasami szybciej jest wykonać „jawną” metodę jądra, w której para funkcji ${\ displaystyle f, g: \ mathbb {R} ^ {d} \ do \ mathbb {R } ^{D}}$ są znalezione takie, że ${\ Displaystyle k (x, x') = \ langle f (x), g (x') \ rangle}$ . Pozwala to na wyrażenie powyższego obliczenia jako

{\ Displaystyle {\ kapelusz {y}} (\ mathbf {x'}) = \ nazwa operatora {sgn} \ suma _ {i = 1} ^ {n} y_ {i} \ langle f (\ mathbf {x } _{i}),g(\mathbf {x'} )\rangle =\nazwa_operatora {sgn} \left\langle \left(\suma _{i=1}^{n}y_{i}f(\ mathbf {x} _{i})\right),g(\mathbf {x'} )\right\rangle ,}

gdzie wartość można obliczyć ${\ Displaystyle \ suma _ {i = 1} ^ {n} y_ {i} f (\ mathbf {x} _ {i})}$ z góry.

Problem z tą metodą polega na tym, że przestrzeń cech może być bardzo duża. To znaczy ${\ displaystyle D>> d}$ . Na przykład dla jądra wielomianu ${\ Displaystyle k (x, x ') = \ langle x, x' \ rangle ^ {3}}$ otrzymujemy ${\ Displaystyle f (x) = x \ czasami x \ czasami x}$ i ${\ Displaystyle g (x ') = x' \ otimes x' \ otimes x'}$ $gdzie$ jest iloczynem tensorowym i ${\ Displaystyle f (x), g (x ') \ in \ mathbb {R} ^ {D}$ gdzie ${\ Displaystyle D = d ^ {3}}$ . Jeśli $duży$ , może $,$ znacznie większy niż liczba punktów danych ( więc metoda jawna jest $nieefektywna$

Ideą szkicu tensorowego jest to, że możemy obliczyć przybliżone funkcje $}}$ ${\ Displaystyle f ', g': \ mathbb {R} ^ {d} \ do \ mathbb {R} ^ {$ $gdzie$ może być nawet mniejszy niż i który nadal ma tę właściwość $,$ ${\ Displaystyle \ langle f' (x), g' (x') \ rangle \ ok. k (x, x')}$ .

W 2020 roku wykazano, że ta metoda działa nawet w przypadku wielomianów wysokiego stopnia i jąder radialnych funkcji bazowych.

Skompresowane mnożenie macierzy

${\ Displaystyle i, j}$ $reprezentowane$ mamy dwa duże zbiory danych, znaleźć z największymi iloczynami wewnętrznymi ${\ Displaystyle \ langle X_ {i}, Y_ {j} \ rangle}$ . Moglibyśmy obliczyć ${\ Displaystyle Z = XY ^ {T} \ in \ mathbb {R} ^ {n \ razy n}}$ $i$ po prostu spójrz na . $przy$ zajęłoby to co najmniej $użyciu$ prawdopodobnie bliższe standardowych technik mnożenia

Ideą skompresowanego mnożenia macierzy jest ogólna tożsamość

{\ Displaystyle XY ^ {T} = \ suma _ {i = 1} ^ {d} X_ {i} \ czasami Y_ {i}}

gdzie jest iloczynem tensorowym $displaystyle \ otimes}$ \ Ponieważ możemy skutecznie obliczyć ( $je$ ) przybliżenie do , zsumować, aby uzyskać przybliżenie dla

Kompaktowe łączenie wieloliniowe

Szkice tensorowe można wykorzystać do zmniejszenia liczby potrzebnych zmiennych podczas implementacji łączenia dwuliniowego w sieci neuronowej .

Łączenie dwuliniowe to technika pobierania dwóch wektorów wejściowych $warstwy wejściowej do$ $używania$ tensorowego neuronowej.

Autorzy rozważali użycie szkicu tensorowego w celu zmniejszenia liczby potrzebnych zmiennych.

W 2017 r. inny artykuł zajmuje się FFT cech wejściowych, zanim zostaną one połączone za pomocą iloczynu elementarnego. To znowu odpowiada oryginalnemu szkicowi tensora.

Dalsza lektura

Ahle, Thomas; Knudsen, Jakob (2019-09-03). „Prawie optymalny szkic tensorowy” . Brama Badawcza . Źródło 2020-07-11 .
Slyusar, VI (1998). „Produkty końcowe w matrycach w zastosowaniach radarowych” (PDF) . Radioelektronika i systemy łączności . 41 (3): 50–53.
Slyusar, VI (1997-05-20). „Model analityczny cyfrowego układu antenowego na podstawie produktów matrycowych dzielących twarz” (PDF) . proc. ICATT-97, Kijów : 108–109.
Slyusar, VI (15.09.1997). „Nowe operacje produktu matrycowego do zastosowań radarów” (PDF) . proc. Bezpośrednie i odwrotne problemy teorii fal elektromagnetycznych i akustycznych (DIPED-97), Lwów. : 73–74.
Slyusar, VI (13 marca 1998). „Rodzina iloczynów twarzy matryc i jej właściwości” (PDF) . Cybernetyka i analiza systemów C/C Kibernetika I Sistemnyi Analiz.- 1999 . 35 (3): 379–384. doi : 10.1007/BF02733426 . S2CID 119661450 .