2ヶ月前
TubeDETR: 変換器を用いた時空間ビデオグラウンディング
Yang, Antoine ; Miech, Antoine ; Sivic, Josef ; Laptev, Ivan ; Schmid, Cordelia

要約
動画内の空間時間的なチューブを、与えられたテキストクエリに対応させて位置特定する問題について考察します。これは、時間的、空間的、および多モーダルな相互作用を共同かつ効率的にモデル化する必要がある困難なタスクです。この課題に対処するために、テキスト条件付きオブジェクト検出において最近の成功が示されているようなモデルに着想を得た Transformer ベースのアーキテクチャである TubeDETR を提案します。当該モデルは特に以下の要素を含んでいます:(i) 疎にサンプリングされたフレーム上で空間的な多モーダル相互作用をモデル化する効率的な動画とテキストのエンコーダー、(ii) 空間時間的な位置特定を共同で行うデコーダーです。我々は広範なアブレーションスタディを通じて提案したコンポーネントの優位性を示しています。また、当該手法全体を空間時間的なビデオグラウンディングタスクで評価し、挑戦的な VidSTG および HC-STVG ベンチマークにおいて最先端技術に対する改善点を示しています。コードと学習済みモデルは https://antoyang.github.io/tubedetr.html で公開されています。