Algorytm fonetyczny
Algorytm fonetyczny to algorytm indeksowania słów według ich wymowy . _ Większość algorytmów fonetycznych została opracowana dla języka angielskiego i nie jest przydatna do indeksowania słów w innych językach. Ponieważ pisownia angielska różni się znacznie w zależności od wielu czynników, takich jak pochodzenie i użycie słowa w czasie oraz zapożyczenia z innych języków, algorytmy fonetyczne z konieczności uwzględniają liczne zasady i wyjątki.
Algorytmy
Do najbardziej znanych algorytmów fonetycznych należą:
- Soundex , który został opracowany w celu kodowania nazwisk do użytku w spisach powszechnych. Kody Soundex to czteroznakowe ciągi składające się z jednej litery, po której następują trzy cyfry.
- Daitch – Mokotoff Soundex , który jest udoskonaleniem Soundex mającym na celu lepsze dopasowanie nazwisk pochodzenia słowiańskiego i germańskiego. Kody Daitch-Mokotoff Soundex to ciągi składające się z sześciu cyfr.
- Fonetyka kolońska : jest podobna do Soundex, ale bardziej odpowiednia dla niemieckich słów.
- Metaphone i Double Metaphone , które są odpowiednie do użycia z większością angielskich słów, nie tylko z nazwami. Algorytmy Metaphone są podstawą wielu popularnych programów do sprawdzania pisowni .
- System identyfikacji i wywiadu stanu Nowy Jork (NYSIIS), który odwzorowuje podobne fonemy na tę samą literę. Rezultatem jest ciąg, który czytelnik może wymówić bez dekodowania.
- Match Rating Approach opracowany przez Western Airlines w 1977 roku - ten algorytm ma technikę kodowania i porównywania zakresów.
- Caverphone , stworzony, aby pomóc w dopasowywaniu danych między listami wyborczymi z końca XIX i początku XX wieku, zoptymalizowany pod kątem akcentów występujących w niektórych częściach Nowej Zelandii.
Typowe zastosowania
- Moduły sprawdzania pisowni mogą często zawierać algorytmy fonetyczne. Na przykład algorytm Metaphone może wziąć nieprawidłowo napisane słowo i utworzyć kod. Kod jest następnie wyszukiwany w katalogu w poszukiwaniu słów z tym samym lub podobnym metafonem. Słowa, które mają taki sam lub podobny metafon, stają się możliwymi alternatywnymi pisowniami.
- wyszukiwania często korzysta z algorytmów fonetycznych w celu znalezienia wyników, które nie pasują dokładnie do terminów użytych w wyszukiwaniu. Wyszukiwanie imion może być trudne, ponieważ często istnieje wiele alternatywnych pisowni nazw. Przykładem jest imię Klara . Ma dwie alternatywy, Clare / Clair, które wymawia się tak samo. Wyszukiwanie jednej pisowni nie przyniosłoby wyników dla dwóch pozostałych. Używając Soundex, wszystkie trzy odmiany tworzą ten sam kod Soundex, C460. Wyszukując nazwy na podstawie kodu Soundex, zostaną zwrócone wszystkie trzy odmiany.
Zobacz też
- Przybliżone dopasowanie ciągów
- Odległość Hamminga
- Odległość Levenshteina
- Odległość Damerau-Levenshteina
- Ten artykuł zawiera materiały należące do domeny publicznej autorstwa Paula E. Blacka. „kodowanie fonetyczne” . Słownik algorytmów i struktur danych . NIST .
Linki zewnętrzne
- Algorytm konwersji słów na fonemy iz powrotem.
- StringMetric projektuje bibliotekę algorytmów fonetycznych Scali .
- clj-fuzzy projektuje bibliotekę algorytmów fonetycznych Clojure .
- SoundexBR biblioteka algorytmu fonetycznego zaimplementowana w R .
- Talisman biblioteka JavaScript gromadząca różne algorytmy fonetyczne, które można wypróbować online.
Kategorie: