
要約
本論文では、動画内に現れるオブジェクトチューレット間の関係を<主語-述語-目的語>トリプレットとして分類および検出することを目指しています。既存の研究では、オブジェクト提案やチューレットを単一のエンティティとして扱い、その後でそれらの関係をモデル化する一方、我々は事前にオブジェクトチューレットのペアに対して述語を分類および検出することを提案します。また、ソーシャルファブリック(Social Fabric)というエンコーディング手法も提案します。この手法は、オブジェクトチューレットのペアをインタラクションプリミティブの組み合わせとして表現します。これらのプリミティブはすべての関係について学習され、結果としてコンパクトな表現が得られ、動画内のすべての時間帯で共発生するオブジェクトチューレット群から関係を局所化および分類することが可能になります。このエンコーディングにより、我々の2段階ネットワークが実現します。第1段階では、ソーシャルファブリックを使用して相互作用している可能性のある提案を生成するために訓練を行います。第2段階では、ソーシャルファブリックを使用してチューレットの述語ラベルを同時に微調整および予測します。実験結果は早期動画関係モデリング、我々のエンコーディング手法および2段階アーキテクチャの利点を示しており、2つのベンチマークにおいて新たな最先端性能を達成しています。さらに、このエンコーディングが空間時間的な動画関係に対するプリミティブ例による検索(query-by-primitive-example)を可能にする方法も示しています。コード: https://github.com/shanshuo/Social-Fabric