2ヶ月前
UnLoc: 動画ローカライゼーションタスクの統一フレームワーク
Shen Yan; Xuehan Xiong; Arsha Nagrani; Anurag Arnab; Zhonghao Wang; Weina Ge; David Ross; Cordelia Schmid

要約
大規模な画像-テキスト事前学習モデル(例:CLIP)は、トリミングされたビデオの複数のビデオレベルタスクに使用されてきましたが、ノントリミングビデオにおける時間的局所化への応用はまだ比較的新しい課題です。私たちはこの課題に対処する新しい手法であるUnLocを設計しました。UnLocは、事前学習済みの画像とテキストタワーを使用し、トークンをビデオ-テキスト融合モデルに供給します。融合モジュールの出力は、各レベルがフレームごとの関連性スコアと開始/終了時刻のずれを予測するヘッドに接続される特徴ピラミッドを構築するために使用されます。これまでの研究とは異なり、私たちのアーキテクチャは単一ステージモデルでアクション提案や動きに基づく事前学習特徴量、表現マスキングなしでモーメント検索、時間的局所化、およびアクションセグメンテーションを可能にします。専門的なモデルとは異なり、統一的な手法でこれら3つの異なる局所化タスクすべてにおいて最先端の結果を達成しています。コードは以下のURLから入手可能です: \url{https://github.com/google-research/scenic}。