Zestaw danych mowy PCVC

Zbiór danych mowy PCVC (Persian Consonant Vowel Combination) to współczesny perski korpus mowy do rozpoznawania mowy , a także rozpoznawania mówcy . Zbiór danych zawiera próbki dźwiękowe współczesnej perskiej kombinacji samogłosek i spółgłosek fonemy różnych mówców. Każda próbka dźwiękowa zawiera tylko jedną spółgłoskę i jedną samogłoskę, więc jest w jakiś sposób oznaczona na poziomie fonemu. Ten zestaw danych składa się z 23 perskich spółgłosek i 6 samogłosek. Próbki dźwiękowe to wszystkie możliwe kombinacje samogłosek i spółgłosek (138 próbek dla każdego mówcy). Częstotliwość próbkowania wszystkich próbek mowy wynosi 48000, co oznacza, że ​​w każdej sekundzie jest 48000 próbek dźwiękowych. Każda próbka dźwiękowa zaczyna się od spółgłoski, a następnie przechodzi do samogłoski. W każdej próbce średnio 0,5 sekundy każdej próbki to mowa, a reszta to cisza. Każda próbka dźwiękowa kończy się ciszą. Wszystkie próbki dźwiękowe są odszumiane za pomocą algorytmu „Adaptive Noise Reduction”. W porównaniu do zestawu danych mowy Farsdat i korpusu mowy perskiej jest łatwiejszy w użyciu, ponieważ jest przygotowany w plikach danych .mat. Ponadto jest bardziej oparty na separacji opartej na fonemach, a wszystkie próbki są odszumiane.

Zawartość

Korpus można pobrać ze strony internetowej Kaggle i zawiera on:

  • Pliki danych .mat próbek dźwiękowych w macierzy 23*6*30000, w której 23 to liczba spółgłosek, 6 to liczba samogłosek, a 30000 to długość próbki dźwiękowej.

Zobacz też

Linki zewnętrzne