
要約
状況認識は、画像で何が起こっているかを活動動詞と役割を果たすアクターおよびオブジェクトの意味的役割を使用して構造化された要約を生成するタスクです。このタスクでは、同じ活動動詞が多様な状況を描写し、同じアクターやオブジェクトのカテゴリが描かれている状況によって異なる意味的役割を果たすことがあります。したがって、状況認識モデルは画像のコンテキストと意味的役割の視覚言語的な意味を理解する必要があります。これにより、言語説明を通じて画像のコンテキストを学習したCLIP基盤モデルを利用します。私たちは、CLIPの画像とテキスト埋め込み特徴量を使用することで、より深く広い多層パーセプトロン(MLP)ブロックが状況認識タスクにおいて注目すべき結果を得られることを示しました。外部に暗黙的に含まれる視覚言語的な知識と現代的なMLPブロック設計の表現力のおかげで、これはTransformerベースの最新モデルであるCoFormerよりも優れた性能を発揮します。この結果に触発され、テキストの役割と視覚的なエンティティ間の関係をモデル化するためにCLIP視覚トークンを使用したクロスアテンションベースのTransformerを開発しました。私たちが開発したクロスアテンションベースのTransformer「ClipSitu XTF」は、imSituデータセットを使用した上位1位精度での意味的役割ラベリング(値)において現行の最先端技術に対して14.1%の大差で優れています。{同様に、ClipSitu XTFは状況位置特定性能でも最先端レベルとなっています。} 我々はコードを公開することにいたします。