8ヶ月前

概要

コンテキストに基づく感情認識は、周囲のシーンから得られるコンテキストの手がかりを考慮しながら、個人の表面的な感情を識別することを指します。このタスクに対する従来のアプローチでは、明示的なシーンエンコーディングアーキテクチャの設計やキャプションなどの外部のシーン関連情報の組み込みが行われてきました。しかし、これらの方法はしばしば限られたコンテキスト情報を利用したり、複雑な学習パイプラインに依存したりする傾向があります。本研究では、ビジョンおよび大規模言語モデル（VLLM）の画期的な能力を活用し、学習過程に複雑さを追加せずに二段階アプローチでコンテキストに基づく感情分類を強化します。第一段階では、VLLMに対して視覚的コンテキストに関連した被写体の表面的な感情について自然言語で説明を生成するように指示します。第二段階では、これらの説明がコンテキスト情報として使用され、画像入力とともに、テキストと視覚特徴を融合して最終的な分類タスクを行うトランスフォーマーベースのアーキテクチャを学習させます。実験結果は、テキストと画像特徴量が補完的な情報を有しており、当該融合アーキテクチャが複雑な学習方法を使用せずに個々のモダリティよりも著しく優れた性能を発揮することを示しています。当方針はEMOTIC, CAER-S, およびBoLDという3つの異なるデータセットで評価され、これら全てのデータセットと指標においてより複雑な手法と比較して最先端または同等の精度を達成しました。コードはGitHub上で公開される予定です: https://github.com/NickyFot/EmoCommonSense.git

ソースPDF