
感情計算(Affective computing)は、利用可能なデータリソースの制限により、これまで大きな課題に直面してきました。ディープラーニングモデルの登場により、コンピュータビジョンのあらゆるタスクに対する標準的なアプローチとして広く採用されるようになったことに伴い、実環境(in-the-wild)における多様なデータセットの収集とアノテーションの必要性が顕在化しました。近年、いくつかの実環境データセットが提案されていますが、以下の課題を抱えています:(i)データサイズが小さい、(ii)音声・映像の両モダリティを含まない、(iii)手動アノテーションが部分的である、(iv)被験者数が少ない、(v)主な行動状態(感情の評価値・覚醒度推定、行動単位(Action Unit)検出、基本的感情表現分類)に対するアノテーションが不完全である。これらの課題を解決するため、現在利用可能な最大規模の実環境データセット(Aff-Wild)を大幅に拡張し、連続的な感情(評価値・覚醒度)の研究を可能にしました。さらに、データセットの一部を基本的感情表現および行動単位(Action Unit)でアノテーションしました。その結果、初めて、感情の三つの主要な行動状態(評価値・覚醒度推定、行動単位検出、基本感情表現分類)を統合的に研究することが可能になりました。このデータセットを「Aff-Wild2」と名付けました。本研究では、CNNおよびCNN-RNNアーキテクチャを用いた広範な実験を実施し、視覚的および音声モダリティを活用したネットワークをAff-Wild2で学習させ、その後、10の公開されている感情認識データセットで性能評価を行いました。その結果、これらのネットワークが感情認識タスクにおいて最先端(state-of-the-art)の性能を達成することを示しました。さらに、感情認識の文脈に適応したArcFace損失関数を導入し、Aff-Wild2上で新たな2つのネットワークを学習させ、その後、多様な表情認識データセットで再学習を行いました。その結果、既存の最先端技術をさらに上回る性能が確認されました。本研究で開発したデータセット、感情認識モデル、およびソースコードは、http://ibug.doc.ic.ac.uk/resources/aff-wild2 にて公開されています。