CZAS
TIMIT jest zbiorem transkrypcji fonemicznej i leksykalnej mowy osób mówiących po amerykańsku , różnych płci i posługujących się różnymi dialektami. Każdy transkrybowany element został nakreślony w czasie.
TIMIT został zaprojektowany w celu poszerzenia wiedzy akustyczno-fonetycznej i systemów automatycznego rozpoznawania mowy. Został zamówiony przez DARPA , a projekt korpusu był wspólnym wysiłkiem Massachusetts Institute of Technology , SRI International i Texas Instruments (TI). Przemówienie zostało nagrane w TI, transkrybowane w MIT oraz zweryfikowane i przygotowane do publikacji przez National Institute of Standards and Technology (NIST). Istnieje również wersja z przepustowością telefoniczną o nazwie NTIMIT (Network TIMIT).
dostęp do zbioru danych wymaga członkostwa w Linguistic Data Consortium lub opłaty pieniężnej.
Historia
Korpus telefoniczny TIMIT był wczesną próbą stworzenia bazy danych z próbkami mowy. Została wydana w 1988 roku na płycie CD-ROM i zawiera tylko 10 zdań na mówcę. Każdy mówca czytał po dwa zdania „dialektowe”, a także kolejne 7 zdań wybranych z większego zestawu. Każde zdanie trwa średnio 3 sekundy i jest wypowiadane przez 630 różnych użytkowników. Była to pierwsza godna uwagi próba stworzenia i dystrybucji korpusu przemówień , a całkowity koszt projektu wyniósł 1,5 miliona USD.
Pełna nazwa projektu to DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus, a akronim TIMIT oznacza Texas Instruments/Massachusetts Institute of Technology. Głównym powodem utworzenia korpusu mowy telefonicznej było szkolenie do rozpoznawania mowy . W wyzwaniu Blizzard różne oprogramowanie ma obowiązek konwertować nagrania dźwiękowe na dane tekstowe, a korpus TIMIT został użyty jako znormalizowana linia bazowa.
Porównanie metod uczenia maszynowego
Badanie | metoda | Dokładność (%) |
---|---|---|
Cao i Fan | KIRF | 93.1 |
Ptak i in. | DEVO MLP | 92,85 |
Cao i Fan | NPCD/MPLSR | 92,8 |
Cao i Fan | NPCD/PCA | 92.1 |
Cao i Fan | MPLSR | 91.1 |
Cao i Fan | PDA/Grzbiet | 91.1 |
Li i Ghosal | UMP | 89,25 |
Li i Ghosal | MLO | 85,25 |
Li i Ghosal | QDA | 83,75 |
Ager i in. | GMM | 81,5 |
Li i Yu | FSDA | 81,5 |
Li i Yu | FSVM | 78 |
Zobacz też
- Bibliografia _ Doddington, George R.; Goudie-Marshall, Kathleen M. (1986). „Baza danych badań rozpoznawania mowy DARPA: specyfikacje i stan” . Materiały z warsztatów DARPA na temat rozpoznawania mowy . s. 93–99.
-
^
Morales, Nicolas i Tejedor, Javier i Garrido, Javier i Colas, Jose i Toledano, Doroteo T (2008). „STC-TIMIT Generowanie jednokanałowego korpusu telefonicznego”. Proceedings of the Sixth International Language Resources and Evaluation (LREC'08) : 391–395.
{{ cite journal }}
: CS1 maint: wiele nazwisk: lista autorów ( link ) - ^ Lori F Lamel i Robert H. Kassel i Stephanie Seneff (1986). Rozwój bazy danych mowy: projektowanie i analiza korpusu akustyczno-fonetycznego (raport techniczny). DARPA (SAIC-86/1546).
- ^ John S Garofolo i Lori F Lamel i William M Fisher i Jonathan G Fiscus i David S Pallett i Nancy L Dahlgren (1993). DARPA TIMIT: (raport techniczny). Narodowy Instytut Standardów i Technologii. doi : 10.6028/nist.ir.4930 .
- ^ Nattanun Chanchaochai i Christopher Cieri i Japhet Debrah i Hongwei Ding i Yue Jiang i Sishi Liao i Mark Liberman i Jonathan Wright i Jiahong Yuan i Juhong Zhan i Yuqing Zhan (2018). GlobalTIMIT: Akustyczno-fonetyczne zestawy danych dla języków świata . Interspeech 2018. ISCA. doi : 10.21437/interspeech.2018-1185 .
-
^
Bauer, Patrick i Scheler, David i Fingscheidt, Tim (2010). WTIMIT: korpus mowy TIMIT transmitowany przez szerokopasmową sieć mobilną 3G AMR . LREC.
{{ cite Conference }}
: CS1 maint: wiele nazwisk: lista autorów ( link ) -
^
Sawada, Kei i Asai, Chiaki i Hashimoto, Kei i Oura, Keiichiro i Tokuda, Keiichi (2016). System zamiany tekstu na mowę NITech dla Blizzard Challenge 2016 . Warsztaty Blizzard Challenge 2016.
{{ cite Conference }}
: CS1 maint: wiele nazwisk: lista autorów ( link ) - ^ a b c d e Cao, Jiguo; Wentylator, Guangzhe (2010). „Klasyfikacja sygnału przy użyciu losowego lasu z jądrami”. 2010 Szósta zaawansowana międzynarodowa konferencja na temat telekomunikacji . IEEE. s. 191–195. doi : 10.1109/aict.2010.81 . ISBN 978-1-4244-6748-8 .
- ^ Ptak, Jordan J.; Wanner, Elżbieta; Ekárt, Anikó; Faria, Diego R. (2020). „Optymalizacja rozpoznawania mowy świadomego fonetycznie poprzez wielokryterialne algorytmy ewolucyjne” (PDF) . Systemy eksperckie z aplikacjami . Elsevier B.V. 153 : 113402. doi : 10.1016/j.eswa.2020.113402 . ISSN 0957-4174 . S2CID 216472225 .
- ^ ab Li , Bin; Yu, Qingzhao (2008). „Klasyfikacja danych funkcjonalnych: podejście do segmentacji”. Statystyka obliczeniowa i analiza danych . Elsevier B.V. 52 (10): 4790–4800. doi : 10.1016/j.csda.2008.03.024 . ISSN 0167-9473 .