HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCLIP: ゼロショット動画-テキスト理解のための対照的前学習

Hu Xu Gargi Ghosh Po-Yao Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Christoph Feichtenhofer

概要

私たちは、ラベルを使用せずにダウンストリームタスクでゼロショットのビデオとテキスト理解を可能にする統合モデルの事前学習に向けた対照的手法であるVideoCLIPを提案します。VideoCLIPは、時間的に重なる肯定的なビデオ-テキストペアと、近傍探索から得られる難易度の高い否定例との対比によって、ビデオとテキストのトランスフォーマーを学習します。多様な一連のダウンストリームタスク(シーケンスレベルでのテキスト-ビデオ検索、VideoQA、トークンレベルでのアクション局所化、アクションセグメンテーションなど)に対する実験結果は、最先端の性能を示しており、先行研究を上回り、場合によっては監督学習アプローチよりも優れた結果を出しています。コードは以下のURLで公開されています: https://github.com/pytorch/fairseq/tree/main/examples/MMPT.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています