2ヶ月前
Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances 无声文字を超えて:音声のニュアンスを用いた感情認識におけるLLMの強化
Zehui Wu; Ziwei Gong; Lin Ai; Pengyuan Shi; Kaan Donbekci; Julia Hirschberg

要約
音声における感情認識は、言葉の内容と声のニュアンスを理解する必要がある複雑な多モーダルタスクである。本論文では、自然言語理解において優れた能力を示している大規模言語モデル(Large Language Models: LLMs)を使用した新たな感情検出手法を提案する。LLMsが音声入力の処理に内在する制約を持つことを克服するために、SpeechCueLLMという方法を提唱する。この方法は、音声の特徴を自然言語の説明に変換し、テキストプロンプトを通じてLLMsが多モーダルな感情分析を行うことができるように設計されている。アーキテクチャの変更を必要としないこの手法は、最小限でありながら大きな影響力を持ち、構造的な変更が必要な基準モデルを上回る性能を発揮する。SpeechCueLLMの評価にはIEMOCAPおよびMELDという2つのデータセットを使用し、特に高品質な音声データにおいて感情認識精度に著しい向上が見られた。また、異なるLLMsに対して様々な特徴表現と微調整戦略の有効性も調査した。実験結果は、音声説明を取り入れることでIEMOCAPでの平均加重F1スコアが2%以上向上すること(70.111%から72.596%へ)を示している。