
要約
現代の会話型エージェントは、人間のコミュニケーション様式を模倣するように訓練されている。ユーザーとの感情的な絆を築くためには、これらの仮想エージェントがユーザーの感情状態を認識している必要がある。トランスフォーマー(Transformer)は、発話と応答のペアから得られる単語埋め込みを用いてエンコーダ・デコーダモデルを学習する、系列対系列学習の最新技術である。本研究では、ユーザー発話に内在する感情的側面(感情知能)を捉えるための感情認識型トランスフォーマー・エンコーダを提案する。本論文の主な貢献は以下の通りである:1)入力発話に基づいて訓練された感情検出モジュールにより、初期段階でユーザーの感情状態を特定する;2)単語埋め込みに感情埋め込みを加算・正規化する新たなトランスフォーマー・エンコーダを提案し、入力発話の意味的側面と感情的側面を統合的に扱う;3)エンコーダおよびデコーダスタックは、言語モデリングの最新技術であるTransformer-XLアーキテクチャに基づいている。ベンチマークとして用いられるFacebook AIの共感的対話データセットにおける実験結果から、本モデルが従来手法と比較してより高いBLEU-4スコアを達成したことにより、生成された応答の質の向上が確認された。感情知能を備えた仮想エージェントはすでに現実のものとなり、今後直近の将来において、感情を人間-機械インターフェースにおける新たなモダリティとして統合することが予想される。