2ヶ月前
STVGFormer: 静的・動的クロスモーダル理解を用いた時空間ビデオグラウンディング
Zihang Lin; Chaolei Tan; Jian-Fang Hu; Zhi Jin; Tiancai Ye; Wei-Shi Zheng

要約
本技術報告では、ヒューマンセンタードの時空間ビデオグラウンディング課題に対する当社の解決策を紹介します。私たちは、STVGFormerと名付けられた簡潔で効果的なフレームワークを提案しています。このフレームワークは、静的ブランチと動的ブランチを使用して時空間の視覚言語依存関係をモデル化します。静的ブランチは単一のフレーム内でクロスモーダル理解を行い、オブジェクトの外観などのフレーム内視覚情報に基づいて目標オブジェクトの空間的な位置を学習します。動的ブランチは複数のフレーム間でのクロスモーダル理解を行い、動きなどの動的視覚情報に基づいて目標瞬間の開始時間と終了時間を予測する能力を学習します。静的および動的ブランチはどちらもクロスモーダルトランスフォーマーとして設計されています。さらに、静的および動的ブランチが互いに有用かつ補完的な情報を転送できるようにする新しい静的-動的相互作用ブロック(static-dynamic interaction block)を設計しました。これは、難しいケースでの予測精度向上に効果があることが示されています。提案した方法は39.6% の vIoU を達成し、第4回 Person in Context チャレンジの HC-STVG トラックで1位となりました。