Truecasing
Truecasing , zwany także odzyskiwaniem wielkich liter , korektą wielkich liter lub przywracaniem wielkości liter , to problem w przetwarzaniu języka naturalnego (NLP) polegający na określaniu właściwej pisowni wielkich liter w słowach, w których takie informacje są niedostępne. Często pojawia się to ze względu na standardową praktykę (w języku angielskim i wielu innych językach) polegającą na automatycznym zapisywaniu pierwszego słowa w zdaniu wielką literą. Może również pojawić się w tekście o niewłaściwej wielkości liter lub w tekście bez wielkości liter (na przykład w wiadomościach tekstowych pisanych wyłącznie małymi lub wielkimi literami ).
Truecase nie jest konieczne w językach, których skrypty nie rozróżniają wielkich i małych liter. Obejmuje to wszystkie języki, które nie są zapisane łacińskim , greckim , cyrylicą lub ormiańskim , takie jak japoński , chiński , tajski , hebrajski , arabski , hindi i gruziński .
Techniki
- Modele sieci neuronowych , które działają na poziomie słowa lub znaku, zostały wytrenowane w celu odzyskiwania wielkich liter z dokładnością większą niż 90%.
- Segmentację zdań można wykorzystać do określenia, gdzie zaczynają się zdania, do wdrożenia zasady, że pierwsze słowo w każdym zdaniu musi być pisane wielką literą.
- Oznaczanie części mowy może służyć do identyfikacji właściwych rzeczowników (takich jak Afryka, Jowisz, Sarah lub Amazonka), które muszą być pisane wielką literą. W niektórych przypadkach to samo słowo może być używane jako różne części mowy i jest różnie pisane wielką literą. Na przykład Xerox firma, jako rzeczownik, jest pisana wielką literą, ale ksero dokumentu, jako czasownik, nie jest pisane wielką literą. Ksero, podobnie jak kopia dokumentu, można rozpoznać po obecności określenia , którego nie stosuje się dla rzeczowników własnych.
- Rozpoznawanie nazwanych jednostek może służyć do identyfikacji nazw własnych, które muszą być pisane wielką literą.
- Moduł sprawdzania pisowni może być używany do identyfikacji słów, które zawsze są pisane wielką literą.
Aplikacje
Truecasing pomaga w innych zadaniach NLP, takich jak rozpoznawanie nazwanych jednostek (NER), automatyczne wyodrębnianie treści (ACE) i tłumaczenie maszynowe . Właściwa wielkość liter pozwala na łatwiejsze wykrywanie rzeczowników własnych, które są punktami wyjścia dla NER i ACE. Niektóre systemy tłumaczeniowe wykorzystują statystyczne techniki uczenia maszynowego, które mogą wykorzystywać informacje zawarte w wielkich literach w celu zwiększenia dokładności.