11일 전

주의 기반 모델을 활용한 음성 정서 인식에서 음성 정서 인지의 실증적 해석

{Thomas Hain Speech, Rosanna Milner, Md AsifJalal}
주의 기반 모델을 활용한 음성 정서 인식에서 음성 정서 인지의 실증적 해석
초록

음성 정서 인식은 음성의 맥락과 의미를 이해하는 데 영향을 미치는 정서 지능을 획득하는 데 필수적이다. 조화롭게 구조화된 모음과 자음 음소는 구어 정보 내에서 지표적(인덱시컬) 및 언어적 단서를 제공한다. 기존 연구들은 심리학적 및 언어학적 관점에서 모음 음소가 정서적 맥락을 전달하는 데 더 중요한 역할을 하는지 여부에 대해 논의해왔다. 또한 다른 연구들은 정서 정보가 작은 겹치는 음성적 단서 내에 존재할 수 있다고 주장하기도 했다. 그러나 이러한 주장들은 기존의 계산 기반 음성 정서 인식 시스템에서는 입증되지 않았다. 본 연구에서는 주의(attention) 기반의 합성곱 기반 모델과 장단기 기억(long-short-term memory, LSTM) 기반 모델을 활용하여 이러한 음성 정서 이론을 계산 모델에서 검증하였다. 음성 정서 인식 작업에서 음성적 맥락과 단어의 중요성의 역할이 입증되었다. 제안된 모델은 IEMOCAP 코퍼스를 평가하여 순수 음성 데이터에서 비가중 평균 정확도 80.1%를 달성하였으며, 이는 이 작업에서 현재 최고 수준의 모델들보다 높은 성능이다. 음소와 단어가 주의 벡터에 매핑되는 방식을 분석한 결과, 모음 음소가 자음보다 정서적 음성 단서를 정의하는 데 더 중요한 역할을 하는 것으로 나타났으며, 모델은 음성적 맥락에 따라 단어의 중요도를 자동으로 할당할 수 있음을 확인하였다.

주의 기반 모델을 활용한 음성 정서 인식에서 음성 정서 인지의 실증적 해석 | 최신 연구 논문 | HyperAI초신경