MFCC

MFCC


Los Mel Frequency Cepstral Coefficients (coeficientes cepstrales en las frecuencias de Mel) son coeficientes para la representación del habla basados en la percepción auditiva humana. Se derivan de la Transformada de Fourier (FT) o de la Transformada de coseno discreta (DCT). La diferencia básica entre FT o la DCT y MFCC es que en MFCC las bandas de frecuencia están situadas logarítmicamente (según la escala Mel), que modela la respuesta auditiva humana más apropiadamente que las bandas espaciadas linealmente de FT o DCT. Esto permite un procesado de datos más eficiente, por ejemplo, en compresión de audio.

MFCCs se calculan comunmente de la siguiente forma:[1]

  1. Se toma la transformada de Fourier de (un estracto de la ventana de) una señal.
  2. Mapear la energia del espectro obtenido de la escala mel, usando una función ventana triangular.
  3. Calcular el logaritmo de la energia de cada frecuencia mel.
  4. Tomar la transformada de coseno discreta de la lista de mel log powers, como si fuera una señal.
  5. Los MFCCs son las amplitudes del espectro resultante.

Aplicaciones

Los MFCCs suelen emplearse características en sistemas de Reconocimiento del habla, como los empleados en el reconocimiento de números dictados por voz. Tambien se aplican en sistemas de Reconocimiento de locutores, cuya función es el reconocimiento de personas por medio de la voz.

Cada vez más, se empiezan a descubrir otras aplicaciones en el campo de la Recuperación de informacion en la música como por ejemplo la clasificacion de géneros, medidas de similitud de audio, etc.

Sensibilidad al ruido

Los valores del MFCCs no son muy robustos ante la presencia de ruido aditivo, por ello es común la normalización de los valores en los sistemas de reconocimiento de locutor para reducir la influencia de dicho ruido. Algunos investigadores proponen modificar el algoritmo básico para hacerlo mas robusto por ejemplo aumentando las amplitudes de los logaritmos en la Escala Mel a un valor apropiado (en torno a 2 ó 3) antes de aplicar la DCT, reduciendo así la influencia de las componentes de baja potencia.[2]


  1. Min Xu et al. (2004). «HMM-based audio keyword generation». En Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh. Advances in Multimedia Information Processing - PCM 2004: 5th Pacific Rim Conference on Multimedia. Springer. ISBN 3540239855. http://books.google.com/books?id=Ijdp9UWb5ZYC&pg=PA569&dq=Mel-frequency-cepstrum&as_brr=3&sig=M4PKJKxiclebl7_BDBWkrPjYWOQ. 
  2. V. Tyagi and C. Wellekens (2005), Plantilla:Doi-inline, in Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05). IEEE International Conference on, vol. 1, pp. 529–532.

Wikimedia foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Mira otros diccionarios:

  • MFCC — can refer to:*Mel frequency cepstral coefficients, mathematical coefficients for sound modeling *Marriage, Family and Child Counselor, a credential in the field of professional counseling …   Wikipedia

  • MFCC — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel Frequenz… …   Deutsch Wikipedia

  • Mfcc — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel Frequenz… …   Deutsch Wikipedia

  • MFCC — Mel Frequency Cepstral Coefficient (Computing » Software) * Maximum Free Carrier Concentration (Academic & Science » Electronics) …   Abbreviations dictionary

  • Mel-frequency cepstrum — In sound processing, the mel frequency cepstrum (MFC) is a representation of the short term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. Mel frequency cepstral… …   Wikipedia

  • Cepstre — Le cepstre (prononcé [kɛpstr]) d un signal x(t) est une transformation de ce signal du domaine temporel vers un autre domaine analogue au domaine temporel. Pour rappeler le fait que l on effectue une transformation inverse à partir du domaine… …   Wikipédia en Français

  • California Association of Marriage and Family Therapists — The California Association of Marriage and Family Therapists (CAMFT) is a non profit professional organization with approximately 30,000 members dedicated to preserving the ethical standards of Marriage and Family Therapists in California. CAMFT… …   Wikipedia

  • Kepstrum — Das Cepstrum wurde 1963 in einem Artikel von Bogert, Healy und Tukey als eine neue Transformation eines Signals in die Nachrichtentechnik eingeführt. In jenem Artikel wird das Cepstrum eines Signals informell als das Spektrum des logarithmierten… …   Deutsch Wikipedia

  • Liftering — Das Cepstrum wurde 1963 in einem Artikel von Bogert, Healy und Tukey als eine neue Transformation eines Signals in die Nachrichtentechnik eingeführt. In jenem Artikel wird das Cepstrum eines Signals informell als das Spektrum des logarithmierten… …   Deutsch Wikipedia

  • Mel Frequency Cepstral Coefficients — Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel Frequenz Cepstrum Koeffizienten) werden zur automatischen Spracherkennung verwendet. Sie führen zu einer kompakten Darstellung des Frequenzspektrums. Das Mel im Namen beschreibt die… …   Deutsch Wikipedia

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”