8ヶ月前

マルチモーダル表現

ビデオ処理

マルチモーダル

コンピュータビジョン

Shen Yan; Xuehan Xiong; Arsha Nagrani; Anurag Arnab; Zhonghao Wang; Weina Ge; David Ross; Cordelia Schmid

概要

大規模な画像-テキスト事前学習モデル（例：CLIP）は、トリミングされたビデオの複数のビデオレベルタスクに使用されてきましたが、ノントリミングビデオにおける時間的局所化への応用はまだ比較的新しい課題です。私たちはこの課題に対処する新しい手法であるUnLocを設計しました。UnLocは、事前学習済みの画像とテキストタワーを使用し、トークンをビデオ-テキスト融合モデルに供給します。融合モジュールの出力は、各レベルがフレームごとの関連性スコアと開始/終了時刻のずれを予測するヘッドに接続される特徴ピラミッドを構築するために使用されます。これまでの研究とは異なり、私たちのアーキテクチャは単一ステージモデルでアクション提案や動きに基づく事前学習特徴量、表現マスキングなしでモーメント検索、時間的局所化、およびアクションセグメンテーションを可能にします。専門的なモデルとは異なり、統一的な手法でこれら3つの異なる局所化タスクすべてにおいて最先端の結果を達成しています。コードは以下のURLから入手可能です: \url{https://github.com/google-research/scenic}。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル表現

ビデオ処理

マルチモーダル

コンピュータビジョン

Shen Yan; Xuehan Xiong; Arsha Nagrani; Anurag Arnab; Zhonghao Wang; Weina Ge; David Ross; Cordelia Schmid

概要

大規模な画像-テキスト事前学習モデル（例：CLIP）は、トリミングされたビデオの複数のビデオレベルタスクに使用されてきましたが、ノントリミングビデオにおける時間的局所化への応用はまだ比較的新しい課題です。私たちはこの課題に対処する新しい手法であるUnLocを設計しました。UnLocは、事前学習済みの画像とテキストタワーを使用し、トークンをビデオ-テキスト融合モデルに供給します。融合モジュールの出力は、各レベルがフレームごとの関連性スコアと開始/終了時刻のずれを予測するヘッドに接続される特徴ピラミッドを構築するために使用されます。これまでの研究とは異なり、私たちのアーキテクチャは単一ステージモデルでアクション提案や動きに基づく事前学習特徴量、表現マスキングなしでモーメント検索、時間的局所化、およびアクションセグメンテーションを可能にします。専門的なモデルとは異なり、統一的な手法でこれら3つの異なる局所化タスクすべてにおいて最先端の結果を達成しています。コードは以下のURLから入手可能です: \url{https://github.com/google-research/scenic}。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

UnLoc: 動画ローカライゼーションタスクの統一フレームワーク | 記事 | HyperAI超神経