
초록
음성 신호로부터의 감정 인식(ER)은 얼굴 표정이나 텍스트 기반 감정 분석과 달리 모방이 어렵다는 점에서 강력한 접근법이다. 감정의 근본적인 정보는 인간-컴퓨터 상호작용에서 매우 유용하며, 지능형 기계가 실제 세계에서 민감하게 반응할 수 있도록 해준다. 기존의 음성 신호 처리를 통한 ER 연구는 주로 다양한 신호 모드 분해 방법과 숨겨진 정보 특징 간의 관계에 집중해 왔다. 그러나 부적절한 분해 파라미터 선택은 모드 중복과 혼합 현상으로 인해 정보가 풍부한 신호 성분의 손실을 초래할 수 있다. 반면 본 연구에서는 VGG-optiVMD라는 강화된 변분 모드 분해(VMD) 알고리즘을 제안하여 의미 있는 음성 특징을 구분하고, VGG16의 평탄화 출력층에 미치는 영향을 평가함으로써 데이터 적합성 제약 조건에 대한 분해 모드 수 및 최적 균형 파라미터를 자동으로 선택한다. 다양한 특징 벡터를 활용하여 서로 다른 데이터베이스에서 VGG16 네트워크를 훈련시키고, VGG-optiVMD의 재현성과 신뢰성을 평가하였다. Mel-주파수 체프스트랄 계수(MFCC), 크로마그램, Mel 스펙트로그램, 톤넷 차트, 스펙트럼 중심점 등을 연결하여 1차원, 2차원, 3차원 특징 벡터를 구성하였다. 결과적으로 신호 샘플링 주파수 및 분해 파라미터의 정밀 조정과 분류 정확도 간에 상호보완적인 관계가 존재함을 확인하였으며, 베를린 EMO-DB 데이터베이스에서 7개 감정을 예측하는 데 있어 최신 기술 수준인 96.09%의 정확도를 달성하였다.