
초록
음성 정서 인식(Speech Emotion Recognition, SER)은 인간-컴퓨터 상호작용(Human-Computer Interaction, HCI)에서 매우 중요한 역할을 하며, 상황에 대한 깊이 있는 이해를 가능하게 하고 보다 우수한 상호작용을 유도한다. 최근 들어 SER 기술을 향상시키기 위해 다양한 머신러닝 및 딥러닝(Deep Learning, DL) 알고리즘이 개발되어 왔다. 음성 정서 인식은 언어 간에 표현 방식의 차이에 따라 달라지기 때문에, 언어에 따라 특화된 접근이 필요하다. 본 논문에서는 페르시아어(파르시아어) 언어에서 중요한 요소를 보다 깊이 탐구하기 위해, 2018년에 공개된 페르시아어 음성 정서 데이터셋인 샤리프 정서 음성 데이터베이스(Sharif Emotional Speech Database, ShEMO)를 활용하여 다양한 딥러닝 기법을 평가하였다. 저수준 및 고수준 신호 특징을 활용하고, 다양한 딥 신경망 및 머신러닝 기법을 적용한 결과, 비가중 정확도(Unweighted Accuracy, UA) 65.20% 및 가중 정확도(Weighted Accuracy, WA) 78.29%를 달성하였다.