2ヶ月前

UniVTG: 時間的なビデオ-言語統合へのアプローチ

Lin, Kevin Qinghong ; Zhang, Pengchuan ; Chen, Joya ; Pramanick, Shraman ; Gao, Difei ; Wang, Alex Jinpeng ; Yan, Rui ; Shou, Mike Zheng
UniVTG: 時間的なビデオ-言語統合へのアプローチ
要約

ビデオ時系列位置づけ(VTG)は、カスタム言語クエリ(例:文章や単語)に基づいて、ビデオから対象のクリップ(連続する区間や非連続なショットなど)を位置づけることを目指しており、ソーシャルメディアでのビデオ閲覧において重要な役割を果たしています。この分野の多くの手法は、タイプ固有のラベル(例:時間間隔の検索や価値曲線の検出)を使用して訓練されたタスク固有のモデルを開発しており、これにより様々なVTGタスクとラベルへの汎化能力が制限されています。本論文では、多様なVTGラベルとタスクを統一する方法である「UniVTG」を提案し、以下の3つの方向性で取り組んでいます。まず、広範囲にわたるVTGラベルとタスクを見直し、統一的な定式化を行います。此基础上,我们开发了数据注释方案以创建可扩展的伪监督(データ注釈スキームを開発して、スケーラブルな疑似教師データを作成します)。次に、各タスクに対応し、各ラベルを十分に活用できる効果的かつ柔軟な位置づけモデルを開発します。最後に、統一フレームワークのおかげで、大規模かつ多様なラベルからの時系列位置づけ事前学習が可能となり、ゼロショット位置づけなどのより強力な位置づけ能力を開発することができます。7つのデータセット(QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, および QFVS)における3つのタスク(時間間隔検索、ハイライト検出、ビデオ要約)に関する広範な実験によって、提案したフレームワークの有効性と柔軟性が示されました。コードは https://github.com/showlab/UniVTG で公開されています。

UniVTG: 時間的なビデオ-言語統合へのアプローチ | 最新論文 | HyperAI超神経