
要約
初期文明の始まり以来、各個人から派生する社会的関係は、私たちの日常生活における社会構造の基礎を形成してきました。コンピュータビジョンの文献では、物体検出やシーン解析などのシーン理解において多くの進展が見られています。最近の研究では、物体間の機能的および幾何学的な関係に焦点を当てています。本研究では、静止画における社会的関係認識の問題に取り組むことを目指しています。私たちは、社会的関係認識のために二重視覚モデルを提案しました。このモデルでは、第一視覚が興味のある個体対に注目し、第二視覚が注意メカニズムを用いて文脈的な手がかりを探求します。また、9種類の社会的関係からなる22,670枚の画像と76,568件のアノテーションサンプルを含む新しい大規模データセット「People in Social Context (PISC)」を収集しました。PISCデータセットでのベンチマーク結果を提供し、提案モデルの有効性を定性的に示しています。