
要約
Grounded Situation Recognition (GSR) は、注目すべき動作(動詞)を分類するだけでなく、意味的な役割に関連する実体(名詞)とそれらの位置を指定された画像から予測するタスクです。ビジョンタスクにおけるトランスフォーマーの著しい成功に着想を得て、私たちはトランスフォーマーエンコーダー-デコーダー構造に基づく GSR モデルを提案します。当モデルの注意メカニズムは、画像の高レベルな意味特徴を効果的に捉えることで正確な動詞分類を可能にし、またモデルが実体間の複雑で画像依存的な関係を柔軟に対処できるようにすることで名詞分類と位置特定の精度向上に貢献します。私たちのモデルは GSR における最初のトランスフォーマー構造であり、SWiG ベンチマークにおいてすべての評価指標で最先端の性能を達成しています。コードは https://github.com/jhcho99/gsrtr で公開されています。