Cepstrum o częstotliwości Mel
W przetwarzaniu dźwięku cepstrum częstotliwości mel ( MFC ) jest reprezentacją krótkoterminowego widma mocy dźwięku, opartego na liniowej transformacji kosinusowej logarytmicznego widma mocy na nieliniowej skali częstotliwości mel .
Współczynniki cepstralne częstotliwości Mel ( MFCC ) to współczynniki, które wspólnie tworzą MFC. Wywodzą się one z pewnego rodzaju cepstralnej klipu audio (nieliniowe „widmo widma”). Różnica między cepstrum a cepstrum o częstotliwości mel polega na tym, że w MFC pasma częstotliwości są równo rozmieszczone w skali mel, co bardziej przybliża odpowiedź ludzkiego układu słuchowego niż pasma częstotliwości rozmieszczone liniowo stosowane w normalnym widmie. To dopasowanie częstotliwości może pozwolić na lepszą reprezentację dźwięku, na przykład w kompresji audio , co może potencjalnie zmniejszyć szerokość pasma transmisji i wymagania dotyczące przechowywania sygnałów audio.
MFCC są zwykle uzyskiwane w następujący sposób:
- Weźmy transformatę Fouriera (fragment w okienku) sygnału.
- Odwzoruj potęgi widma otrzymanego powyżej na skalę mel , używając trójkątnych nakładających się okien lub alternatywnie nakładających się okien cosinusowych .
- Weź logi mocy przy każdej z częstotliwości mel.
- Weź dyskretną transformatę kosinusową listy potęg logarytmicznych mel, tak jakby to był sygnał.
- MFCC to amplitudy wynikowego widma.
Mogą istnieć odmiany tego procesu, na przykład: różnice w kształcie lub rozstawie okien używanych do odwzorowania skali lub dodanie cech dynamicznych, takich jak „delta” i „delta-delta” (ramka pierwszego i drugiego rzędu -do różnicy ramek) współczynniki.
Europejski Instytut Norm Telekomunikacyjnych na początku XXI wieku zdefiniował znormalizowany algorytm MFCC, który ma być używany w telefonach komórkowych .
MFCC do rozpoznawania mówców
Ponieważ pasma częstotliwości Mel są rozmieszczone równomiernie w MFCC i są bardzo podobne do systemu głosowego człowieka, dlatego MFCC można skutecznie wykorzystać do scharakteryzowania mówców, na przykład można go użyć do rozpoznania szczegółów modelu telefonu komórkowego mówcy i dalsze dane mówcy.
Mówiąc o rozpoznawaniu mowy w celu identyfikacji telefonów komórkowych, produkcja komponentów elektronicznych w telefonie ma tolerancje, ponieważ różne realizacje obwodów elektronicznych nie mają dokładnie takich samych funkcji przenoszenia . Różnice w funkcji przenoszenia z jednej realizacji do drugiej stają się bardziej widoczne, jeśli obwody realizujące zadanie pochodzą od różnych producentów. Dlatego każdy telefon komórkowy wprowadza splot zniekształcenia mowy wejściowej, które pozostawiają swój wyjątkowy wpływ na nagrania z telefonu komórkowego. Dlatego konkretny telefon można zidentyfikować na podstawie nagranej mowy, mnożąc oryginalne widmo częstotliwości z dalszym mnożeniem funkcji przenoszenia specyficznej dla każdego telefonu, a następnie technikami przetwarzania sygnału. W ten sposób za pomocą MFCC można scharakteryzować nagrania z telefonu komórkowego w celu zidentyfikowania marki i modelu telefonu.
Biorąc pod uwagę sekcję nagrywania telefonu komórkowego jako filtr liniowy niezmienny w czasie ( LTI ):
Odpowiedź impulsowa - h(n) , zarejestrowany sygnał mowy y(n) jako wyjście filtra w odpowiedzi na wejście x(n).
Stąd (splot)
Ponieważ mowa nie jest sygnałem stacjonarnym, jest dzielona na nachodzące na siebie ramki, w których przyjmuje się, że sygnał jest stacjonarny. Tak więc krótkoterminowy segment (ramka) nagranej mowy wejściowej to:
- ,
gdzie w(n) : funkcja okienkowa o długości W.
Stąd, jak określono, ślad telefonu komórkowego nagranej mowy to zniekształcenie splotu, które pomaga zidentyfikować nagrywający telefon.
Wbudowana tożsamość telefonu komórkowego wymaga konwersji do lepiej identyfikowalnej formy, stąd zastosowanie krótkotrwałej transformaty Fouriera:
można uznać za połączoną funkcję przenoszenia, która wytworzyła mowę wejściową, a nagraną mowę można postrzegać jako oryginalna mowa z telefonu komórkowego.
Tak więc równoważna funkcja przenoszenia traktu głosowego i rejestratora telefonu komórkowego jest uważana za oryginalne źródło nagranej mowy. Dlatego,
gdzie ) jest funkcją wzbudzenia, przenoszenia traktu głosowego dla mowy w ramce i jest równoważną funkcją transferu, która charakteryzuje telefon komórkowy.
Takie podejście może być przydatne do rozpoznawania mówcy, ponieważ identyfikacja urządzenia i identyfikacja mówcy są ze sobą ściśle powiązane.
Biorąc pod uwagę obwiednię widma pomnożoną przez bank filtrów (odpowiedni cepstrum z bankiem filtrów w skali mel), po wygładzeniu banku filtrów funkcją przejścia U(f), operacje logarytmiczne na energiach wyjściowych są następujące:
H.
MFCC odnosi sukces dzięki tej nieliniowej transformacji z właściwością addytywną.
Transformacja z powrotem do dziedziny czasu:
gdzie, cy(j), ce(j), cw(j) to odpowiednio zarejestrowane cepstrum mowy i ważona równoważna odpowiedź impulsowa rejestratora telefonu komórkowego charakteryzującego telefon komórkowy, podczas gdy j to liczba filtrów w banku filtrów.
Dokładniej, informacje specyficzne dla urządzenia znajdują się w nagranej mowie, która jest konwertowana na postać addytywną odpowiednią do identyfikacji.
cy(j) może być dalej przetwarzane w celu identyfikacji nagrywającego telefonu.
Często używane długości ramek - 20 lub 20 ms.
Powszechnie używane funkcje okien - okna Hamminga i Hanninga.
Dlatego skala Mel jest powszechnie stosowaną skalą częstotliwości, która jest liniowa do 1000 Hz i logarytmiczna powyżej.
Obliczanie częstotliwości centralnych filtrów w skali Mel:
- , podstawa 10.
Podstawowa procedura obliczania MFCC:
- Wyjścia banku filtrów logarytmicznych są tworzone i mnożone przez 20 w celu uzyskania obwiedni widmowych w decybelach.
- MFCC uzyskuje się, wykonując dyskretną transformatę kosinusową (DCT) obwiedni widmowej.
- Współczynniki cepstrum uzyskuje się jako:
, i = 1,2,.....,L ,
gdzie c i = c y (i) = i-ty współczynnik MFCC, N f to liczba trójkątnych filtrów w banku filtrów, Sn to logarytm energii wyjściowej n-tego współczynnika filtra, a L to liczba współczynników MFCC, które chcemy obliczyć .
Aplikacje
MFCC są powszechnie używane jako funkcje w systemach rozpoznawania mowy , takich jak systemy, które mogą automatycznie rozpoznawać liczby wypowiadane do telefonu.
MFCC coraz częściej znajdują zastosowanie w aplikacjach do wyszukiwania informacji muzycznych, takich jak klasyfikacja gatunków , miary podobieństwa dźwięku itp.
Wrażliwość na hałas
Wartości MFCC nie są bardzo niezawodne w obecności dodatkowego szumu, dlatego często normalizuje się ich wartości w systemach rozpoznawania mowy, aby zmniejszyć wpływ szumu. Niektórzy badacze proponują modyfikacje podstawowego algorytmu MFCC w celu poprawy niezawodności, takie jak podniesienie amplitud log-mel do odpowiedniej potęgi (około 2 lub 3) przed wykonaniem dyskretnej transformaty kosinusowej (DCT), która zmniejsza wpływ niskich komponenty energetyczne.
Historia
Paulowi Mermelsteinowi zwykle przypisuje się rozwój MFC. Mermelstein przypisuje pomysł Bridle'owi i Brownowi:
Bridle i Brown wykorzystali zestaw 19 ważonych współczynników kształtu widma określonych przez transformację kosinusową wyjść zestawu nierównomiernie rozmieszczonych filtrów pasmowoprzepustowych. Odstęp między filtrami jest wybierany jako logarytmiczny powyżej 1 kHz i tam również zwiększa się szerokość pasma filtra. Dlatego będziemy je nazywać parametrami cepstralnymi opartymi na mel.
Czasami cytowani są obaj wcześni twórcy.
Wielu autorów, w tym Davis i Mermelstein, stwierdziło, że spektralne funkcje bazowe transformaty kosinusowej w MFC są bardzo podobne do głównych składowych widm logarytmicznych, które zostały zastosowane do reprezentacji i rozpoznawania mowy znacznie wcześniej przez Polsa i jego współpracowników.