
要約
会話における感情分析および感情検出は、実世界のさまざまな応用において重要な役割を果たしており、利用可能なモダリティ(情報モード)の増加により、背後にある感情をより深く理解できるようになっている。マルチモーダル感情検出およびセンチメント分析は特に有用であり、利用可能なデータに応じて、特定のモダリティサブセットを活用できるため、実用性が高い。しかし、現行のマルチモーダル機能を扱うシステムは、すべてのモダリティを通じた会話の文脈を適切に活用・捉えられておらず、話者と聴者間の感情状態の相互依存性、および利用可能なモダリティ間の関連性や相関関係を十分に考慮できていない。本論文では、上記の課題をすべて踏まえたエンド・トゥ・エンドのRNNアーキテクチャを提案する。著者らが執筆時点での評価結果によれば、ベンチマークデータセットにおいて、多様な精度指標および回帰指標において、既存の最先端技術を上回る性能を発揮している。