CZAS

TIMIT jest zbiorem transkrypcji fonemicznej i leksykalnej mowy osób mówiących po amerykańsku , różnych płci i posługujących się różnymi dialektami. Każdy transkrybowany element został nakreślony w czasie.

TIMIT został zaprojektowany w celu poszerzenia wiedzy akustyczno-fonetycznej i systemów automatycznego rozpoznawania mowy. Został zamówiony przez DARPA , a projekt korpusu był wspólnym wysiłkiem Massachusetts Institute of Technology , SRI International i Texas Instruments (TI). Przemówienie zostało nagrane w TI, transkrybowane w MIT oraz zweryfikowane i przygotowane do publikacji przez National Institute of Standards and Technology (NIST). Istnieje również wersja z przepustowością telefoniczną o nazwie NTIMIT (Network TIMIT).

dostęp do zbioru danych wymaga członkostwa w Linguistic Data Consortium lub opłaty pieniężnej.

Historia

Korpus telefoniczny TIMIT był wczesną próbą stworzenia bazy danych z próbkami mowy. Została wydana w 1988 roku na płycie CD-ROM i zawiera tylko 10 zdań na mówcę. Każdy mówca czytał po dwa zdania „dialektowe”, a także kolejne 7 zdań wybranych z większego zestawu. Każde zdanie trwa średnio 3 sekundy i jest wypowiadane przez 630 różnych użytkowników. Była to pierwsza godna uwagi próba stworzenia i dystrybucji korpusu przemówień , a całkowity koszt projektu wyniósł 1,5 miliona USD.

Pełna nazwa projektu to DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus, a akronim TIMIT oznacza Texas Instruments/Massachusetts Institute of Technology. Głównym powodem utworzenia korpusu mowy telefonicznej było szkolenie do rozpoznawania mowy . W wyzwaniu Blizzard różne oprogramowanie ma obowiązek konwertować nagrania dźwiękowe na dane tekstowe, a korpus TIMIT został użyty jako znormalizowana linia bazowa.

Porównanie metod uczenia maszynowego

Porównanie metod rozpoznawania fonemów na zbiorze danych TIMIT
Badanie metoda Dokładność (%)
Cao i Fan KIRF 93.1
Ptak i in. DEVO MLP 92,85
Cao i Fan NPCD/MPLSR 92,8
Cao i Fan NPCD/PCA 92.1
Cao i Fan MPLSR 91.1
Cao i Fan PDA/Grzbiet 91.1
Li i Ghosal UMP 89,25
Li i Ghosal MLO 85,25
Li i Ghosal QDA 83,75
Ager i in. GMM 81,5
Li i Yu FSDA 81,5
Li i Yu FSVM 78

Zobacz też

  1. Bibliografia _ Doddington, George R.; Goudie-Marshall, Kathleen M. (1986). „Baza danych badań rozpoznawania mowy DARPA: specyfikacje i stan” . Materiały z warsztatów DARPA na temat rozpoznawania mowy . s. 93–99.
  2. ^ Morales, Nicolas i Tejedor, Javier i Garrido, Javier i Colas, Jose i Toledano, Doroteo T (2008). „STC-TIMIT Generowanie jednokanałowego korpusu telefonicznego”. Proceedings of the Sixth International Language Resources and Evaluation (LREC'08) : 391–395. {{ cite journal }} : CS1 maint: wiele nazwisk: lista autorów ( link )
  3. ^ Lori F Lamel i Robert H. Kassel i Stephanie Seneff (1986). Rozwój bazy danych mowy: projektowanie i analiza korpusu akustyczno-fonetycznego (raport techniczny). DARPA (SAIC-86/1546).
  4. ^ John S Garofolo i Lori F Lamel i William M Fisher i Jonathan G Fiscus i David S Pallett i Nancy L Dahlgren (1993). DARPA TIMIT: (raport techniczny). Narodowy Instytut Standardów i Technologii. doi : 10.6028/nist.ir.4930 .
  5. ^ Nattanun Chanchaochai i Christopher Cieri i Japhet Debrah i Hongwei Ding i Yue Jiang i Sishi Liao i Mark Liberman i Jonathan Wright i Jiahong Yuan i Juhong Zhan i Yuqing Zhan (2018). GlobalTIMIT: Akustyczno-fonetyczne zestawy danych dla języków świata . Interspeech 2018. ISCA. doi : 10.21437/interspeech.2018-1185 .
  6. ^ Bauer, Patrick i Scheler, David i Fingscheidt, Tim (2010). WTIMIT: korpus mowy TIMIT transmitowany przez szerokopasmową sieć mobilną 3G AMR . LREC. {{ cite Conference }} : CS1 maint: wiele nazwisk: lista autorów ( link )
  7. ^ Sawada, Kei i Asai, Chiaki i Hashimoto, Kei i Oura, Keiichiro i Tokuda, Keiichi (2016). System zamiany tekstu na mowę NITech dla Blizzard Challenge 2016 . Warsztaty Blizzard Challenge 2016. {{ cite Conference }} : CS1 maint: wiele nazwisk: lista autorów ( link )
  8. ^ a b c d e   Cao, Jiguo; Wentylator, Guangzhe (2010). „Klasyfikacja sygnału przy użyciu losowego lasu z jądrami”. 2010 Szósta zaawansowana międzynarodowa konferencja na temat telekomunikacji . IEEE. s. 191–195. doi : 10.1109/aict.2010.81 . ISBN 978-1-4244-6748-8 .
  9. ^    Ptak, Jordan J.; Wanner, Elżbieta; Ekárt, Anikó; Faria, Diego R. (2020). „Optymalizacja rozpoznawania mowy świadomego fonetycznie poprzez wielokryterialne algorytmy ewolucyjne” (PDF) . Systemy eksperckie z aplikacjami . Elsevier B.V. 153 : 113402. doi : 10.1016/j.eswa.2020.113402 . ISSN 0957-4174 . S2CID 216472225 .
  10. ^ ab Li   , Bin; Yu, Qingzhao (2008). „Klasyfikacja danych funkcjonalnych: podejście do segmentacji”. Statystyka obliczeniowa i analiza danych . Elsevier B.V. 52 (10): 4790–4800. doi : 10.1016/j.csda.2008.03.024 . ISSN 0167-9473 .

Linki zewnętrzne