要約
過去20年間にわたり、多くの研究者が堅牢な感情認識システムの開発を目指して取り組んできた。このようなシステムの実現は、ユーザーの感情状態を分析することで、人間とコンピュータの相互作用においてより自然なフィードバックを提供し、コンピュータシステムのインタラクションレベルを飛躍的に向上させる可能性を秘めている。しかし、この分野における重要な課題の一つは、モデルの汎化能力の不足にある。すなわち、あるデータセットで学習したモデルが、別のデータセットで評価された際に、性能が著しく低下する現象が頻発する。既存の研究においてはいくつかのアプローチが試みられているが、視覚モダリティに関する研究は依然として十分に進んでいない。そこで本研究では、記録条件、参加者の外見的特徴、データ処理の複雑さが異なる8つのデータセットを用いて、視覚情報に基づくクロスコーパス研究を実施した。さらに、多数の動画フレームにわたる時間的依存性をモデル化するための、堅牢な事前学習済みバックボーンモデルと時間的サブシステムを組み合わせた、エンドツーエンドの視覚ベース感情認識フレームワークを提案する。また、バックボーンモデルの誤りの分析とその強みを詳細に検討し、その高い汎化能力を示した。実験結果から、AffectNetデータセットにおいてバックボーンモデルは66.4%の精度を達成し、既存の最先端手法を上回ることを確認した。さらに、CNN-LSTMモデルはクロスコーパス実験において動的視覚データセットに対して良好な性能を発揮し、最先端手法と同等の結果を示した。本研究では、今後の研究者向けに、バックボーンモデルおよびCNN-LSTMモデルをGitHubを通じて公開している。