MFCC À Cepstre À Fréquence Mel
Les coefficients cepstraux de fréquence Mel (MFCC) sont une technologie largement utilisée dans le domaine du traitement du son, en particulier dans la reconnaissance vocale et la reconnaissance du locuteur. Elle a été proposée par Davis et Mermelstein en 1980 et est basée sur la transformation linéaire du spectre de puissance logarithmique de l'échelle Mel non linéaire des fréquences sonores.
Les coefficients cepstraux de fréquence Mel (MFCC) sont des coefficients qui composent le cepstral de fréquence Mel, qui sont dérivés du cepstre d'un clip audio et sont espacés de manière égale sur l'échelle Mel dans des bandes qui se rapprochent mieux du système auditif humain que les bandes espacées linéairement utilisées dans le cepstre normal. Cette représentation non linéaire peut conduire à une meilleure représentation des signaux sonores dans de nombreux domaines, comme dans la compression audio. Le processus de calcul des MFCC peut être grossièrement divisé en étapes suivantes : lecture de fichiers audio, préaccentuation, cadrage, fenêtrage, transformée de Fourier, obtention du spectre Mel via la banque de filtres Mel et exécution d'une analyse cepstre sur le spectre Mel. Les MFCC contiennent généralement 12 coefficients, qui sont superposés à l'énergie de la trame pour obtenir des coefficients à 13 dimensions, qui sont utilisés pour décrire les caractéristiques de chaque trame de parole.