梅尔倒谱 MFCCs

梅尔倒谱(Mel-Frequency Cepstral Coefficients,简称 MFCCs)是一种在声音处理领域广泛应用的技术,特别是在语音识别和话者识别中。它是由 Davis 和 Mermelstein 在 1980 年提出的,它基于声音频率的非线性梅尔刻度 (Mel scale) 的对数能量频谱的线性变换。

梅尔倒谱系数 (MFCCs) 就是组成梅尔频率倒谱的系数,它们衍生自音讯片段的倒频谱 (cepstrum),并且在梅尔刻度上等距划分的频带比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这种非线性表示可以在多个领域中使声音信号有更好的表示,例如在音讯压缩中。 MFCCs 的计算过程大致可以分为音频文件读取、预加重、分帧、加窗、傅里叶变换、通过梅尔滤波器组得到 Mel 频谱、在 Mel 频谱上进行倒谱分析等步骤。 MFCCs 通常包含 12 个系数,与讯框能量叠加得到 13 维的系数,用于描述每帧语音的特征。