Parafrazowanie (lingwistyka komputerowa)

Parafraza lub parafraza w lingwistyce komputerowej to zadanie przetwarzania języka naturalnego polegające na wykrywaniu i generowaniu parafraz . Zastosowania parafrazowania są zróżnicowane, w tym wyszukiwanie informacji, odpowiadanie na pytania , streszczanie tekstu i wykrywanie plagiatu . Parafrazowanie jest również przydatne w ocenie tłumaczenia maszynowego , a także w parsowaniu semantycznym i generowaniu nowych próbek w celu rozszerzenia istniejących korpusy .

Generowanie parafraz

Dopasowanie wielu sekwencji

Barzilay i Lee zaproponowali metodę generowania parafraz za pomocą jednojęzycznych korpusów równoległych , a mianowicie artykułów prasowych dotyczących tego samego wydarzenia tego samego dnia. Szkolenie polega na wykorzystaniu dopasowania wielu sekwencji do generowania parafraz na poziomie zdania z korpusu bez adnotacji. Robi się to przez

znalezienie powtarzających się wzorców w każdym pojedynczym korpusie, tj. „ $X$ (kontuzjowanych/rannych) $Y$ osób, $Z$ poważnie”, gdzie $X, Y, Z$ są zmiennymi
znajdowanie par między takimi wzorcami reprezentują parafrazy, tj. „ $X$ (rannych/rannych) osób $Y ,$ $Z$ poważnie” oraz „ $Y$ byli (ranni/ranni) przez $X$ , wśród nich $Z$ był w ciężkim stanie”

Osiąga się to poprzez pierwsze grupowanie podobnych zdań przy użyciu nakładania się n-gramów . Powtarzające się wzorce można znaleźć w klastrach za pomocą wyrównania wielu sekwencji. Następnie pozycja argumentowanych słów jest określana poprzez znalezienie obszarów o dużej zmienności w obrębie każdego skupienia, czyli między słowami wspólnymi dla ponad 50% zdań klastra. Pary między wzorcami są następnie znajdowane przez porównanie podobnych słów zmiennych między różnymi korpusami. Wreszcie, nowe parafrazy można wygenerować, wybierając pasujący klaster dla zdania źródłowego, a następnie podstawiając argument zdania źródłowego do dowolnej liczby wzorców w klastrze.

Tłumaczenie maszynowe oparte na frazach

Parafrazę można również wygenerować za pomocą tłumaczenia opartego na frazach , jak zaproponowali Bannard i Callison-Burch. Główna koncepcja polega na dopasowaniu fraz w języku osiowym w celu stworzenia potencjalnych parafraz w języku oryginalnym. Na przykład wyrażenie „pod kontrolą” w zdaniu angielskim jest dopasowane do wyrażenia „unter kontrolle” w jego niemieckim odpowiedniku. Wyrażenie „unter kontrolle” znajduje się następnie w innym niemieckim zdaniu z dopasowanym angielskim wyrażeniem „w szachu”, parafrazą „pod kontrolą”.

Rozkład prawdopodobieństwa można modelować $2$ wyrażenie prawdopodobieństwa $}$ ${\ Displaystyle e_ {1}}$ , co jest równoważne ${\ Displaystyle \ Pr (e_ {2} | f) \ Pr (f | e_ {1 })}$ zsumowane po całości ${\ displaystyle f}$ , potencjalne tłumaczenie frazy w języku przestawnym. Dodatkowo zdanie $.$ jako przed dodaniem kontekstu do parafrazy Zatem optymalną parafrazę można modelować jako: ${\ displaystyle {\ hat {e_ {2}}}}$

{\ Displaystyle {\ kapelusz {e_ {2}}} = {\ tekst {arg}} \ max _ {e_ {2} \ neq e_ {1}} \ Pr (e_ {2} | e_ {1}, S )={\text{arg}}\max _{e_{2}\neq e_{1}}\sum _{f}\Pr(e_{2}|f,S)\Pr(f|e_{1 },S)}

${\ Displaystyle \ Pr (e_ {2} | f)}$ i ${\ Displaystyle \ Pr (f | e_ {1})}$ można przybliżyć, po prostu biorąc ich częstotliwości. Dodanie $priori$ jest modelowane przez obliczenie prawdopodobieństwa utworzenia mi $\ displaystyle$ $e_ {1}} jest$ mi $}$ .

Pamięć długotrwała

Odnotowano sukces w wykorzystaniu modeli pamięci długoterminowej (LSTM) do generowania parafraz. Krótko mówiąc, model składa się z komponentu kodera i dekodera, oba zaimplementowane przy użyciu odmian ułożonego w stos szczątkowego LSTM . Po pierwsze, kodowanie LSTM przyjmuje jako dane wejściowe jednokrotne kodowanie wszystkich słów w zdaniu i tworzy końcowy ukryty wektor, który może reprezentować zdanie wejściowe. Dekodowanie LSTM pobiera ukryty wektor jako dane wejściowe i generuje nowe zdanie, kończące się tokenem końca zdania. Koder i dekoder są szkoleni, aby wziąć frazę i odtworzyć jednolitą dystrybucję odpowiedniej parafrazy poprzez zminimalizowanie zakłopotanie przy użyciu prostego gradientu stochastycznego . Nowe parafrazy są generowane przez wprowadzenie nowej frazy do kodera i przekazanie danych wyjściowych do dekodera.

Transformatory

Wraz z wprowadzeniem modeli Transformer , metody generowania parafraz poprawiły swoją zdolność do generowania tekstu poprzez skalowanie parametrów sieci neuronowych i intensywne równoległe uczenie poprzez warstwy sprzężenia zwrotnego . Modele te są tak płynne w generowaniu tekstu, że eksperci-ludzie nie są w stanie określić, czy przykład został stworzony przez człowieka, czy wygenerowany maszynowo. Generowanie parafraz oparte na transformatorze opiera się na autokodowaniu , autoregresji lub sekwencji do sekwencji metody. Modele Autoencoder przewidują kandydatów do zamiany słów z jednokierunkową dystrybucją w słownictwie, podczas gdy modele autoregresyjne i seq2seq generują nowy tekst w oparciu o źródło przewidujące jedno słowo na raz. Istnieją również bardziej zaawansowane wysiłki mające na celu umożliwienie kontrolowania parafrazowania zgodnie z wcześniej określonymi wymiarami jakości, takimi jak zachowanie semantyki lub różnorodność leksykalna. Wiele metod generowania parafraz opartych na transformatorach opiera się na uczeniu się bez nadzoru, aby wykorzystać duże ilości danych szkoleniowych i skalować swoje metody.

Rozpoznawanie parafraz

Autoenkodery rekurencyjne

Socher i wsp. próbowali rozpoznawać parafrazy za pomocą autoenkoderów rekurencyjnych . Główną koncepcją jest stworzenie wektorowej reprezentacji zdania i jego składników za pomocą rekurencyjnego autoenkodera. Reprezentacje wektorowe parafraz powinny mieć podobne reprezentacje wektorowe; są przetwarzane, a następnie wprowadzane jako dane wejściowe do sieci neuronowej w celu klasyfikacji.

Biorąc pod uwagę zdanie ze $słowami$ , autoenkoder jest przeznaczony do przyjmowania dwuwymiarowych $osadzonych$ jako danych wejściowych $i$ tworzenia wektora wymiarowego jako $\ displaystyle n$ wyjście. Ten sam autoenkoder $jest$ stosowany do każdej pary słów w celu wytworzenia $\ lfloor m/2 \ rfloor}$ wektory. Autoenkoder jest następnie stosowany rekurencyjnie z nowymi wektorami jako danymi wejściowymi, aż do utworzenia pojedynczego wektora. Biorąc pod uwagę nieparzystą liczbę danych wejściowych, pierwszy wektor jest przekazywany bez zmian do następnego poziomu rekurencji. Autoenkoder jest przeszkolony w odtwarzaniu każdego wektora w pełnym drzewie rekurencji, w tym początkowych osadzonych słów.

Biorąc pod uwagę dwa zdania i $W_$ ${2}}$ o długości odpowiednio 4 i 3, autoenkodery wytworzyłyby 7 i 5 reprezentacji wektorowych, w tym początkowe osadzenie odległość euklidesową między każdą kombinacją wektorów w $\ Displaystyle$ W $W_ {2}},$ utworzyć macierz podobieństwa ${\ Displaystyle S \ w \ mathbb {R} ^ {7 \ razy 5}}$ . ${\ displaystyle S}$ jest następnie poddawany dynamicznej warstwie min-poolingu w celu wytworzenia macierzy o stałym rozmiarze ${\ displaystyle n_ {p} \ razy n_ {p}} .$ Ponieważ nie mają jednakowej wielkości wśród wszystkich potencjalnych zdań, $S$ $}$ jest podzielony na $n_ {p}}$ mniej więcej równe sekcje. Wyjście jest następnie normalizowane, aby miało średnią 0 i odchylenie standardowe 1 i jest podawane do w pełni połączonej warstwy z softmax . Dynamiczne łączenie do modelu softmax jest trenowane przy użyciu par znanych parafraz.

Wektory pomijania myśli

Wektory pomijania myśli są próbą stworzenia wektorowej reprezentacji semantycznego znaczenia zdania, podobnie jak model pomijania gramów . Wektory pomijania myśli są tworzone przy użyciu modelu pomijania myśli, który składa się z trzech kluczowych komponentów, kodera i dwóch dekoderów. Biorąc pod uwagę korpus dokumentów, model pomijania myśli jest szkolony, aby wziąć zdanie jako dane wejściowe i zakodować je w wektorze pomijania myśli. Wektor pomijania myśli jest używany jako dane wejściowe dla obu dekoderów; jeden próbuje odtworzyć poprzednie zdanie, a drugi następujące zdanie w całości. Koder i dekoder można zaimplementować za pomocą a rekurencyjna sieć neuronowa (RNN) lub LSTM .

Ponieważ parafrazy mają między sobą to samo znaczenie semantyczne, powinny mieć podobne wektory pomijania myśli. W ten sposób prostą regresję logistyczną można wytrenować w celu uzyskania dobrej wydajności z bezwzględną różnicą i iloczynem składowym dwóch wektorów pomijania myśli jako danych wejściowych.

Transformatory

Podobnie jak modele Transformera wpłynęły na generowanie parafraz, ich zastosowanie w identyfikowaniu parafraz przyniosło wielki sukces. Modele takie jak BERT można dostosować za pomocą klasyfikacji binarnej i kompleksowo przeszkolić w zakresie zadań identyfikacyjnych. Transformatory osiągają dobre wyniki przy przenoszeniu między domenami i technikami parafrazowania w porównaniu z bardziej tradycyjnymi metodami uczenia maszynowego, takimi jak regresja logistyczna . Inne udane metody oparte na architekturze Transformer obejmują uczenie kontradyktoryjne i metauczenie .

Ocena

Do oceny parafraz można zastosować wiele metod. Ponieważ rozpoznawanie parafraz może stanowić problem klasyfikacyjny, większość standardowych metryk oceny, takich jak dokładność , wynik f1 lub krzywa ROC , radzi sobie stosunkowo dobrze. Istnieją jednak trudności z obliczeniem wyników f1 ze względu na problemy z utworzeniem pełnej listy parafraz dla danej frazy oraz fakt, że dobre parafrazy zależą od kontekstu. Metryką zaprojektowaną w celu przeciwdziałania tym problemom jest ParaMetric. ParaMetric ma na celu obliczenie precyzji i wycofania automatycznego systemu parafraz poprzez porównanie automatycznego dopasowania parafraz z ręcznym dopasowaniem podobnych fraz. Ponieważ ParaMetric po prostu ocenia jakość dopasowania fraz, może być używany do oceniania systemów generowania parafraz, zakładając, że wykorzystuje wyrównanie fraz jako część procesu generowania. Godną uwagi wadą ParaMetric jest duży i wyczerpujący zestaw ręcznych wyrównań, które należy najpierw utworzyć, zanim będzie można wystawić ocenę.

Ocena generowania parafraz ma podobne trudności jak ocena tłumaczenia maszynowego . Jakość parafrazy zależy między innymi od jej kontekstu, tego, czy jest używana jako podsumowanie i jak jest generowana. Ponadto dobra parafraza zwykle różni się leksykalnie od frazy źródłowej. Najprostszą metodą stosowaną do oceny generowania parafraz byłoby wykorzystanie ludzkich sędziów. Niestety, ocena przez ludzkich sędziów jest zwykle czasochłonna. Zautomatyzowane podejścia do ewaluacji okazują się wyzwaniem, ponieważ zasadniczo jest to problem tak trudny, jak rozpoznawanie parafraz. Chociaż pierwotnie był używany do oceny tłumaczeń maszynowych, ocena dwujęzyczna dublera ( BLEU ) został również z powodzeniem wykorzystany do oceny modeli generowania parafraz. Jednak parafrazy często mają kilka różnych leksykalnie, ale równie ważnych rozwiązań, co szkodzi BLEU i innym podobnym metrykom oceny.

Metryki zaprojektowane specjalnie do oceny generowania parafraz obejmują parafrazę w zmianie n-gramów (PINC) i metrykę oceny parafrazy (PEM) wraz ze wspomnianym wcześniej ParaMetric. PINC jest przeznaczony do użytku z BLEU i pomaga pokryć jego niedoskonałości. Ponieważ BLEU ma trudności ze zmierzeniem odmienności leksykalnej, PINC jest miarą braku nakładania się n-gramów między zdaniem źródłowym a kandydującą parafrazą. Zasadniczo jest to odległość Jaccarda między zdaniem, z wyłączeniem n-gramów, które pojawiają się w zdaniu źródłowym, aby zachować pewną równoważność semantyczną. Z drugiej strony PEM próbuje ocenić „adekwatność, płynność i odmienność leksykalną” parafraz, zwracając heurystykę pojedynczej wartości obliczoną przy użyciu N-gramów w języku przestawnym. Jednak dużą wadą PEM jest to, że musi być szkolony przy użyciu dużych, równoległych korpusów w domenie i ludzkich sędziów. Jest to równoważne szkoleniu rozpoznawania parafraz w celu oceny systemu generowania parafraz.

Zbiór danych par pytań Quora, który zawiera setki tysięcy zduplikowanych pytań, stał się powszechnym zbiorem danych do oceny detektorów parafraz. Wszystkie najlepiej działające modele wykrywania parafraz w ciągu ostatnich trzech lat wykorzystywały architekturę Transformer i wszystkie opierały się na dużej ilości wstępnego szkolenia z bardziej ogólnymi danymi przed precyzyjnym dostrojeniem za pomocą par pytań.

Zobacz też

Linki zewnętrzne

Microsoft Research Paraphrase Corpus - zbiór danych składający się z 5800 par zdań wyodrębnionych z artykułów prasowych z adnotacjami w celu odnotowania, czy para oddaje równoważność semantyczną
Baza danych parafraz (PPDB) — przeszukiwalna baza danych zawierająca miliony parafraz w 16 różnych językach