Model językowy oparty na faktorach

Factored Language Model ( FLM ) jest rozszerzeniem konwencjonalnego ${\ Displaystyle w_ {i} = \ {f_ {i} ^ {1}, ..., f_ {i} ^ {k} \}.}$ językowego wprowadzonego przez Jeffa Bilmesa i Katrin Kirchoff w 2003 roku. W FLM każde słowo jest postrzegane jako wektor k czynników : FLM zapewnia model probabilistyczny $}$ $N}$ gdzie przewidywanie czynnika jest oparte na $Displaystyle$ rodzice ${\ Displaystyle \ {f_ {1}, ..., f_ {N} \}$ . ${\ Displaystyle P (w_ {i} | w_ {i-2}, w_ {i-1}, t_ {i-1})} daje model przewidywania bieżącego tokena słownego również na podstawie$ przykład, jeśli $reprezentuje$ token słowny i znacznik $części$ mowy dla języka angielskiego, wyrażenie tradycyjnego modelu Ngram jako znacznik części mowy poprzedniego słowa.

Główną zaletą faktoryzowanych modeli językowych jest to, że pozwalają one użytkownikom określić wiedzę językową, taką jak związek między tokenami słów a częściami mowy w języku angielskim lub informacje morfologiczne (rdzenie, rdzeń itp.) w języku arabskim.

Podobnie jak modele N-gramowe , techniki wygładzania są niezbędne w szacowaniu parametrów. W szczególności podczas szkolenia FLM stosuje się uogólnione wycofywanie.

J. Bilmes i K. Kirchhoff (2003). „Modele językowe uwzględniające czynniki i uogólnione równoległe wycofywanie” (PDF) . Konferencja technologii języka ludzkiego . Zarchiwizowane od oryginału (PDF) w dniu 17 lipca 2012 r.