Współczynnik błędów słowa
Współczynnik błędów słów ( WER ) jest powszechną miarą wydajności systemu rozpoznawania mowy lub systemu tłumaczenia maszynowego .
Ogólna trudność pomiaru wydajności polega na tym, że rozpoznana sekwencja słów może mieć inną długość niż sekwencja słów odniesienia (podobno właściwa). WER wywodzi się z odległości Levenshteina i działa na poziomie słowa zamiast na poziomie fonemu . WER jest cennym narzędziem do porównywania różnych systemów, jak również do oceny ulepszeń w ramach jednego systemu. Ten rodzaj pomiaru nie dostarcza jednak żadnych szczegółów na temat natury błędów tłumaczeniowych, dlatego konieczne są dalsze prace w celu zidentyfikowania głównych źródeł błędów i ukierunkowania wszelkich wysiłków badawczych.
Problem ten rozwiązuje się najpierw przez wyrównanie rozpoznanej sekwencji słów z sekwencją słów referencyjnych (mówionych) przy użyciu dynamicznego wyrównania łańcuchów. Badanie tego problemu jest postrzegane przez teorię zwaną prawem potęgowym, które określa korelację między zakłopotaniem a wskaźnikiem błędów słownych.
Współczynnik błędów programu Word można następnie obliczyć jako:
Gdzie
- S to liczba podstawień,
- D to liczba usunięć,
- I to liczba wstawek,
- C to liczba poprawnych słów,
- N to liczba słów w odnośniku (N=S+D+C)
Intuicja stojąca za „usuwaniem” i „wstawianiem” polega na tym, jak wyjść z odniesienia do hipotezy. Jeśli więc mamy odniesienie „To jest wikipedia” i hipotezę „To jest wikipedia”, nazywamy to usunięciem.
Podczas zgłaszania wydajności systemu rozpoznawania mowy czasami zamiast tego używana jest dokładność słowa (WAcc) :
Należy zauważyć, że ponieważ N to liczba słów w odwołaniu, współczynnik błędu słowa może być większy niż 1,0, a zatem dokładność słowa może być mniejsza niż 0,0.
Eksperymenty
Powszechnie uważa się, że niższy wskaźnik błędów w słowie świadczy o większej dokładności rozpoznawania mowy w porównaniu z wyższym wskaźnikiem błędów w słowie. Jednak co najmniej jedno badanie wykazało, że może to nie być prawda. W Microsoft Research wykazano, że gdyby ludzie byli szkoleni w ramach „pasującego do celu optymalizacji rozumienia” (Wang, Acero i Chelba, 2003), wykazaliby większą dokładność rozumienia języka niż inni ludzie, którzy wykazali niższy wskaźnik błędów słownych, co pokazuje, że prawdziwe rozumienie języka mówionego opiera się na czymś więcej niż tylko wysokiej dokładności rozpoznawania słów.
Inne wskaźniki
Jeden problem związany ze stosowaniem ogólnej formuły, takiej jak powyższa, polega jednak na tym, że nie bierze się pod uwagę wpływu, jaki różne rodzaje błędów mogą mieć na prawdopodobieństwo pomyślnego wyniku, np. niektóre błędy mogą być bardziej uciążliwe niż inne, a inne mogą korygować łatwiej niż inne. Czynniki te są prawdopodobnie specyficzne dla testowanej składni . Kolejnym problemem jest to, że nawet przy najlepszym dopasowaniu formuła nie może odróżnić błędu podstawienia od połączonego błędu usunięcia i wstawienia.
Hunt (1990) zaproponował użycie ważonej miary dokładności wykonania, w której błędy podstawienia są ważone jako jedność, ale błędy usunięcia i wstawienia mają wagę tylko 0,5, a zatem:
Trwa jednak debata, czy formuła Hunta może być właściwie stosowana do oceny wydajności pojedynczego systemu, ponieważ została opracowana jako sposób porównywania bardziej konkurencyjnych systemów kandydujących. Dodatkową komplikacją jest to, czy dana składnia pozwala na korekcję błędów, a jeśli tak, to jak łatwy jest ten proces dla użytkownika. Argument, że metryki wydajności powinny być opracowane tak, aby odpowiadały konkretnemu mierzonemu systemowi, ma zatem pewne zalety.
Jednak niezależnie od tego, która miara jest używana, jednym z głównych problemów teoretycznych w ocenie wydajności systemu jest decyzja, czy słowo zostało „błędnie wymówione”, tj. czy wina leży po stronie użytkownika, czy rozpoznającego. Może to być szczególnie istotne w systemie zaprojektowanym tak, aby poradzić sobie z osobami, dla których dany język nie jest językiem ojczystym lub z silnymi akcentami regionalnymi.
Tempo, w jakim słowa powinny być wypowiadane podczas procesu pomiaru, jest również źródłem zmienności między badanymi, podobnie jak potrzeba odpoczynku lub wzięcia oddechu przez badanych. Wszystkie takie czynniki mogą wymagać pewnej kontroli.
W przypadku dyktowania tekstu ogólnie przyjmuje się, że dokładność wykonania na poziomie poniżej 95% jest nie do przyjęcia, ale znowu może to zależeć od składni i/lub dziedziny, np. czy istnieje presja czasu na wykonanie zadania przez użytkowników, czy istnieją metody alternatywne ukończenia i tak dalej.
Termin „współczynnik błędów pojedynczego słowa” jest czasami określany jako procent niepoprawnych rozpoznań każdego innego słowa w słowniku systemowym.
Edytuj odległość
Współczynnik błędu słowa może być również określany jako odległość edycji znormalizowanej długości . Znormalizowana odległość edycji między X i Y, d ( X, Y ) jest zdefiniowana jako minimum W( P ) / L ( P ), gdzie P to ścieżka edycji między X i Y, W ( P ) to suma wagi elementarnych operacji edycji P, a L(P) to liczba tych operacji (długość P).
Zobacz też
Notatki
- ^ Kłaków, Dietrich; Jochen Peters (wrzesień 2002). „Testowanie korelacji wskaźnika błędów słów i zakłopotania”. Komunikacja mowy . 38 (1–2): 19–28. doi : 10.1016/S0167-6393(01)00041-3 . ISSN 0167-6393 .
- Bibliografia _ Acero, A.; Chełba, C. (2003). Czy wskaźnik błędów słów jest dobrym wskaźnikiem dokładności rozumienia języka mówionego . Warsztaty IEEE dotyczące automatycznego rozpoznawania i rozumienia mowy. St Thomas, Wyspy Dziewicze Stanów Zjednoczonych. CiteSeerX 10.1.1.89.424 .
- ^ Nießen i in. (2000)
- ^ Obliczanie znormalizowanej odległości edycji i zastosowania: AndrCs Marzal i Enrique Vidal
Innych źródeł
- McCowan i in. 2005: O wykorzystaniu środków wyszukiwania informacji do oceny rozpoznawania mowy
- Hunt, MJ, 1990: Dane liczbowe zasługi dla oceny podłączonych urządzeń do rozpoznawania słów (Speech Communication, 9, 1990, s. 239-336)
- Zechner, K., Waibel, A. Minimalizacja wskaźnika błędów słownych w tekstowych podsumowaniach języka mówionego