音声感情認識における音響特徴およびテキスト特徴向けの自己注意重み補正に基づく手法
発話感情認識(Speech Emotion Recognition, SER)は、発話者の意図を理解するために不可欠である。近年、一部の研究グループでは、発話系列からの特徴抽出に双方向型長短期記憶ネットワーク(Bidirectional Long Short-Term Memory, BLSTM)を用い、発話系列の重要な部分に注目するための自己注意機構(self-attention mechanism)を導入することで、SERの性能向上を試みている。また、発話情報とテキスト情報を統合することでSERの性能がさらに向上することが知られており、自動音声認識器(Automatic Speech Recognizer, ASR)を用いることでこれを自動的に行うことが可能である。しかし、発話に感情が含まれる場合、ASRの性能は低下する。感情を含む発話に対するASR性能向上の手法は存在するが、これにはASRの微調整(fine-tuning)が必要であり、計算コストが高くなる上に、発話セグメントにおける感情の有無を判断する上で重要な手がかりが失われる可能性がある。この問題を解決するために、本研究では信頼度指標を用いた自己注意重み補正(Self-Attention Weight Correction, SAWC)を組み込んだ、BLSTMおよび自己注意機構に基づくSER手法を提案する。本手法はSERにおける音声特徴抽出器およびテキスト特徴抽出器に適用され、ASR誤認識の可能性が高い発話セグメントおよび語に対して、重要度重みを調整する。提案手法であるSAWCは、テキスト特徴において認識誤りを生じやすい語の重要度を低減しつつ、その語を含む音声セグメントの重要度を強調する。IEMOCAP(Interactive Emotional Dyadic Motion Capture)データセットを用いた実験の結果、本手法は重み付き平均正解率76.6%を達成し、他の最先端手法を上回る性能を示した。さらに、提案手法のSAWCが各特徴抽出器においてどのように動作するかについても詳細に検証した。