
要約
顔表情認識(Facial Expression Recognition, FER)は感情計算の重要な課題であるが、従来の7つの基本的感情に焦点を当てるアプローチは、複雑で拡大し続ける感情スペクトラムへの適用性を制限している。この問題に対処するために、動的な実世界FERにおける新しいおよび未見の感情を扱うために、サンプルレベルのテキスト記述(つまり、文脈、表現、または感情的ヒントのキャプション)を自然言語監督として利用する新たなビジョン-言語モデルを提案する。本モデルは豊かな潜在表現の学習を強化し、ゼロショット分類を行うことを目指している。これを検証するために、サンプルレベルの記述で訓練されたモデルを使用して4つの人気のある動的なFERデータセット上でゼロショット分類評価を行った。結果は、ベースライン手法と比較して大幅な改善をもたらすことを示している。特に、ゼロショットビデオFERにおいては、複数のデータセット上でウェイト付き平均再現率ではCLIPより10%以上、ウェイトなし平均再現率では5%以上の性能向上が確認された。さらに、サンプルレベルの記述を使用して訓練されたネットワークから得られた表現を精神健康症状推定という下流タスクで評価したところ、最先端手法に匹敵または優れた性能が得られ、人間の専門家との強い一致が確認された。具体的には、統合失調症症状の重症度推定においてピアソン相関係数0.85まで達しており、これは人間の専門家の一致と同等である。本研究で使用したコードは公開されており、以下のURLからアクセス可能である: https://github.com/NickyFot/EmoCLIP.