
要約
注目予測とは、明確な注意をモデル化する計算タスクを指します。社会的ヒントは私たちの注意に大きな影響を与え、その結果、目の動きや行動が変化します。このような特徴の効果を強調するために、社会的ヒントを統合し、その影響を重み付けするニューラルモデルを提案します。当モデルは2つの段階で構成されています。第1段階では、視線追跡、視線方向推定、感情認識によって2つの社会的ヒントを検出します。これらの特徴は画像処理操作を通じて時空間マップに変換されます。変換された表現は第2段階(GASP)に伝播され、ここでは社会的ヒントの統合に向けた遅延融合技術の様々な手法を探り、関連刺激への注意誘導を行う2つのサブネットワークを導入します。実験結果から、静的な統合手法では融合アプローチがより良い結果を達成することが示されました。一方で、各モダリティの影響が不明な非融合アプローチは、動的な注目予測のために再帰型モデルと組み合わせるとより良い成果が得られました。私たちは視線方向と感情表現が社会的ヒントなしの動的注目モデルと比較して地上真値との対応性改善に少なくとも5%寄与することを示しています。さらに、感情表現はGASPの性能向上に貢献しており、注目予測において感情偏向注意を考える必要性を支持しています。注:「GASP」は「Gaze-Aware Saliency Prediction」(視線認識型注目予測)の略称です。