2달 전

음성의 미묘한 차이를 활용한 감정 인식에서의 LLM 확대: 무성자 너머

Zehui Wu; Ziwei Gong; Lin Ai; Pengyuan Shi; Kaan Donbekci; Julia Hirschberg
음성의 미묘한 차이를 활용한 감정 인식에서의 LLM 확대: 무성자 너머
초록

음성에서의 감정 인식은 말 내용과 목소리의 미묘한 차이를 이해해야 하는 복잡한 다중 모드 작업입니다. 본 논문에서는 자연어 이해에서 뛰어난 능력을 보여준 대형 언어 모델(Large Language Models, LLMs)을 활용한 새로운 감정 검출 접근법을 소개합니다. LLMs가 오디오 입력을 처리하는 데 본질적인 한계가 있음을 극복하기 위해, 우리는 SpeechCueLLM이라는 방법을 제안합니다. 이 방법은 음성 특성을 자연어 설명으로 변환하여, 구조적 변경 없이 텍스트 프롬프트를 통해 LLMs가 다중 모드 감정 분석을 수행할 수 있도록 합니다. 우리의 방법은 간단하면서도 효과적이며, 구조적 수정이 필요한 기존 모델들을 능가합니다. 우리는 IEMOCAP과 MELD 두 데이터셋에서 SpeechCueLLM을 평가하였으며, 특히 고품질 오디오 데이터에 대해 감정 인식 정확도에서 상당한 개선을 보였습니다. 또한 다양한 특징 표현과 미세 조정 전략에 대해 다른 LLMs의 효과를 탐구하였습니다. 실험 결과, 음성 설명을 통합함으로써 IEMOCAP에서 평균 가중 F1 점수가 2% 이상 증가(70.111%에서 72.596%)함을 입증하였습니다.

음성의 미묘한 차이를 활용한 감정 인식에서의 LLM 확대: 무성자 너머 | 최신 연구 논문 | HyperAI초신경