8ヶ月前

ビデオ理解

オブジェクト検出

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

概要

動画内の空間時間的なチューブを、与えられたテキストクエリに対応させて位置特定する問題について考察します。これは、時間的、空間的、および多モーダルな相互作用を共同かつ効率的にモデル化する必要がある困難なタスクです。この課題に対処するために、テキスト条件付きオブジェクト検出において最近の成功が示されているようなモデルに着想を得た Transformer ベースのアーキテクチャである TubeDETR を提案します。当該モデルは特に以下の要素を含んでいます：(i) 疎にサンプリングされたフレーム上で空間的な多モーダル相互作用をモデル化する効率的な動画とテキストのエンコーダー、(ii) 空間時間的な位置特定を共同で行うデコーダーです。我々は広範なアブレーションスタディを通じて提案したコンポーネントの優位性を示しています。また、当該手法全体を空間時間的なビデオグラウンディングタスクで評価し、挑戦的な VidSTG および HC-STVG ベンチマークにおいて最先端技術に対する改善点を示しています。コードと学習済みモデルは https://antoyang.github.io/tubedetr.html で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

オブジェクト検出

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

概要

動画内の空間時間的なチューブを、与えられたテキストクエリに対応させて位置特定する問題について考察します。これは、時間的、空間的、および多モーダルな相互作用を共同かつ効率的にモデル化する必要がある困難なタスクです。この課題に対処するために、テキスト条件付きオブジェクト検出において最近の成功が示されているようなモデルに着想を得た Transformer ベースのアーキテクチャである TubeDETR を提案します。当該モデルは特に以下の要素を含んでいます：(i) 疎にサンプリングされたフレーム上で空間的な多モーダル相互作用をモデル化する効率的な動画とテキストのエンコーダー、(ii) 空間時間的な位置特定を共同で行うデコーダーです。我々は広範なアブレーションスタディを通じて提案したコンポーネントの優位性を示しています。また、当該手法全体を空間時間的なビデオグラウンディングタスクで評価し、挑戦的な VidSTG および HC-STVG ベンチマークにおいて最先端技術に対する改善点を示しています。コードと学習済みモデルは https://antoyang.github.io/tubedetr.html で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています