HyperAI超神经

멜 주파수 켑스트럼 계수(MFCC)는 음향 처리 분야, 특히 음성 인식 및 화자 인식 분야에서 널리 사용되는 기술입니다. 이 방법은 1980년 데이비스와 머멜스타인이 제안한 것으로, 음향 주파수의 비선형 멜 스케일의 대수적 전력 스펙트럼의 선형 변환을 기반으로 합니다.

멜 주파수 셉스트럼 계수(MFCC)는 멜 주파수 셉스트럼을 구성하는 계수로, 오디오 클립의 셉스트럼에서 파생되었으며 일반 셉스트럼에서 사용되는 선형 간격의 대역보다 인간의 청각 체계에 더 잘 근접하는 대역에서 멜 스케일에서 균일하게 간격을 두고 배치됩니다. 이러한 비선형 표현은 오디오 압축과 같은 여러 분야에서 사운드 신호를 더 잘 표현하는 데 도움이 될 수 있습니다. MFCC의 계산 과정은 대략 오디오 파일 읽기, 프리엠퍼시스, 프레이밍, 윈도잉, 푸리에 변환, 멜 필터 뱅크를 통한 멜 스펙트럼 얻기, 멜 스펙트럼에 대한 켑스트럼 분석 수행의 단계로 나눌 수 있습니다. MFCC는 일반적으로 12개의 계수를 포함하는데, 이 계수를 프레임 에너지와 중첩하여 13차원 계수를 얻고, 이 계수를 사용하여 각 음성 프레임의 특성을 설명합니다.

멜 주파수 켑스트럼 MFCC