11日前

注意メカニズムを用いたモデルによる話声感情認識における話声感情認識の実証的解釈

{Thomas Hain Speech, Rosanna Milner, Md AsifJalal}
注意メカニズムを用いたモデルによる話声感情認識における話声感情認識の実証的解釈
要約

話音感情認識は、文脈や意味の理解に影響を与える感情知能を獲得するために不可欠である。調和的に構造化された母音および子音の音声は、話された情報に指標的かつ言語的な手がかりを提供する。これまでの研究では、母音の音声手がかりが心理的・言語的観点から感情的文脈をより効果的に伝えるかどうかについて議論されてきた。また、他の研究では、感情情報がわずかに重複する音響的特徴量に内在している可能性が指摘されている。しかし、これらの主張は、計算機ベースの話音感情認識システムにおいては裏付けられていない。本研究では、注意機構(attention)を用いた畳み込み型モデルと長短期記憶型(LSTM)モデルを用いて、これらの話音感情に関する理論を計算モデル上で検証した。音響的文脈および語の重要性が話音感情認識タスクにおいて果たす役割が明らかになった。提案モデルはIEMOCAPコーパスを用いて評価され、純粋な音響データにおいて80.1%の未加重正解率(unweighted accuracy)を達成し、このタスクにおける現行の最先端モデルを上回った。また、音節(phones)および語(words)が注意ベクトルにマッピングされた結果、母音が子音よりも感情の音響的特徴を定義する上でより重要であることが示され、モデルが音響的文脈に基づいて語の重要性を適切に割り当てていることが確認された。

注意メカニズムを用いたモデルによる話声感情認識における話声感情認識の実証的解釈 | 最新論文 | HyperAI超神経