2달 전

말소리 감정 인식을 위한 재발 동역학의 통합

Efthymios Tzinis; Georgios Paraskevopoulos; Christos Baziotis; Alexandros Potamianos
말소리 감정 인식을 위한 재발 동역학의 통합
초록

우리는 음성 신호에 내재된 비선형 재현 동역학을 포착할 수 있는 특징들의 성능을 감정 인식(Speech Emotion Recognition, SER) 작업에서 조사합니다. 각 음성 프레임의 위상 공간을 재구성하고 해당 재현 플롯(Recurrence Plot, RP)을 계산하면 복잡한 구조가 드러나며, 이는 재현 양자화 분석(Recurrence Quantification Analysis, RQA)을 수행하여 측정할 수 있습니다. 이러한 측정치들은 통계 함수를 사용하여 세그먼트와 발화 기간 동안 집계됩니다. 우리는 제안된 특징 집합을 사용하여 세 가지 데이터베이스에서 다양한 분류 방법을 통해 SER 결과를 보고합니다. 제안된 특징들을 전통적인 특징 집합과 결합할 때, 기준 모델 대비 화자 종속(Speaker-Dependent, SD) 및 화자 독립(Speaker-Independent, SI) SER 작업에서 가중되지 않은 정확도가 각각 최대 5.7%와 10.7% 향상되는 것을 보여줍니다. 세그먼트 기반 접근 방식을 따르면 IEMOCAP에서 양방향 순환 신경망(Bidirectional Recurrent Neural Network)을 사용하여 최신 수준의 성능을 입증하였습니다.

말소리 감정 인식을 위한 재발 동역학의 통합 | 최신 연구 논문 | HyperAI초신경