18일 전
다중 언어 음성 감정 인식을 위한 심층 학습 및 비지도 특징의 통합
{Roberto Tedesco, Licia Sbattella, Federico Galati, Vincenzo Scotti}
초록
본 논문에서는 말하는 문장으로부터 다국어 감정 인식을 위한 합성곱 신경망(Convolutional Neural Network)을 제안한다. 본 연구의 목적은 다국어 환경에서도 텍스트와 음성 정보를 통합하여 감정을 인식할 수 있는 모델을 구축하는 것이었다. 제안하는 모델은 엔드 투 엔드(end-to-end) 딥 아키텍처를 채택하여 원시적인 텍스트 및 음성 데이터를 입력으로 받아, 합성곱 층을 통해 계층적인 분류 특징을 추출한다. 또한, 다국어 비지도 텍스트 특징을 활용함으로써, 훈련된 모델이 다양한 언어에서 뛰어난 성능을 달성할 수 있음을 보여준다. 추가적으로, 본 솔루션은 텍스트와 음성이 단어 또는 음소 수준에서 정렬되어야 하는 전제가 필요하지 않다는 점이 주목할 만하다. 제안된 모델인 PATHOSnet은 IEMOCAP, EmoFilm, SES 및 AESI 등 다양한 말하기 언어를 포함하는 여러 코퍼스에서 훈련 및 평가되었다. 훈련 전에, 영어로 된 감정적 내용을 포함한 실제 음성 녹음과 텍스트 전사가 제공되는 IEMOCAP 코퍼스를 기반으로 하이퍼파라미터를 최적화하였다. 최종적으로, 제안된 모델은 고려된 네 가지 감정(기쁨, 분노, 슬픔, 공포)에 대해 선택된 데이터셋 중 일부에서 최신 기술(SOTA, State-of-the-art) 수준의 성능을 보였다.