Zestaw danych mowy PCVC

Zbiór danych mowy PCVC (Persian Consonant Vowel Combination) to współczesny perski korpus mowy do rozpoznawania mowy , a także rozpoznawania mówcy . Zbiór danych zawiera próbki dźwiękowe współczesnej perskiej kombinacji samogłosek i spółgłosek fonemy różnych mówców. Każda próbka dźwiękowa zawiera tylko jedną spółgłoskę i jedną samogłoskę, więc jest w jakiś sposób oznaczona na poziomie fonemu. Ten zestaw danych składa się z 23 perskich spółgłosek i 6 samogłosek. Próbki dźwiękowe to wszystkie możliwe kombinacje samogłosek i spółgłosek (138 próbek dla każdego mówcy). Częstotliwość próbkowania wszystkich próbek mowy wynosi 48000, co oznacza, że w każdej sekundzie jest 48000 próbek dźwiękowych. Każda próbka dźwiękowa zaczyna się od spółgłoski, a następnie przechodzi do samogłoski. W każdej próbce średnio 0,5 sekundy każdej próbki to mowa, a reszta to cisza. Każda próbka dźwiękowa kończy się ciszą. Wszystkie próbki dźwiękowe są odszumiane za pomocą algorytmu „Adaptive Noise Reduction”. W porównaniu do zestawu danych mowy Farsdat i korpusu mowy perskiej jest łatwiejszy w użyciu, ponieważ jest przygotowany w plikach danych .mat. Ponadto jest bardziej oparty na separacji opartej na fonemach, a wszystkie próbki są odszumiane.

Zawartość

Korpus można pobrać ze strony internetowej Kaggle i zawiera on:

Pliki danych .mat próbek dźwiękowych w macierzy 23*6*30000, w której 23 to liczba spółgłosek, 6 to liczba samogłosek, a 30000 to długość próbki dźwiękowej.

Zobacz też

Porównanie zbiorów danych w uczeniu maszynowym

Linki zewnętrzne

Lingwistyka korpusowa
Korpusy tekstów, j. ang	Amerykański Korpus Narodowy banku języka angielskiego Bergen Corpus of London Teenage Language Brytyjski Korpus Narodowy Korpus Brązowy Korpus Buckeye'a Cambridge English Corpus Korpus współczesnego amerykańskiego angielskiego Korpus Enronu Dziesięć Dziesięć Międzynarodowy korpus języka angielskiego Korpus Lancaster-Oslo-Bergen Oxford English Corpus PropBank Korpus mówionego języka angielskiego CZAS CzasownikNet Wellington Corpus mówionego języka angielskiego w Nowej Zelandii
Korpusy tekstowe, inne niż angielskie	Korpus Bijankhana DZIECI CorCenCC Narodowy Korpus Współczesnego Walijskiego Korpus języka chorwackiego Chorwacki Korpus Narodowy Czeski Korpus Narodowy Korpus Europarl Niemiecki korpus referencyjny Korpus Hamshahri Narodowy Korpus Języka Polskiego Projekt korpusu tekstów neoasyryjskich Perski korpus mowy Koraniczny korpus arabski Rosyjski Korpus Narodowy Szkocki korpus tekstów i mowy Słoweński Korpus Narodowy TalkBank Tatoeba Jednojęzyczny korpus Teheranu Tekstaro de Esperanto Rodzina TenTen Corpus Tezaurus Linguae Graecae
Organizacje	Konsorcjum BNC KOBUDOWAĆ Szkic silnika