2ヶ月前

InternVideo: 生成学習と判別学習を用いた一般的なビデオ基盤モデル

Yi Wang; Kunchang Li; Yizhuo Li; Yinan He; Bingkun Huang; Zhiyu Zhao; Hongjie Zhang; Jilan Xu; Yi Liu; Zun Wang; Sen Xing; Guo Chen; Junting Pan; Jiashuo Yu; Yali Wang; Limin Wang; Yu Qiao
InternVideo: 生成学習と判別学習を用いた一般的なビデオ基盤モデル
要約

基盤モデルは最近、コンピュータビジョンのさまざまな下流タスクで優れた性能を示しています。しかし、既存のほとんどのビジョン基盤モデルは画像レベルの事前学習と適応に焦点を当てており、動的かつ複雑なビデオレベルの理解タスクには限界があります。このギャップを埋めるために、生成的な自己監督ビデオ学習と識別的な自己監督ビデオ学習の両方を活用した一般的なビデオ基盤モデル「InternVideo」を提案します。具体的には、InternVideoはマスクされたビデオモデリングとビデオ言語対照学習を事前学習目標として効率的に探求し、これらの2つの補完的なフレームワークのビデオ表現を学習可能な方法で選択的に調整することで、様々なビデオアプリケーションの性能向上に貢献します。特別な工夫なしに、InternVideoは包括的なタスク(ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど)を含む39のビデオデータセットで最先端の性能を達成しました。特に、我々の手法は挑戦的なKinetics-400およびSomething-Something V2ベンチマークにおいてそれぞれ91.1%および77.2%のトップ1精度を得ることができました。これらの結果は全て、我々のInternVideoがビデオ理解において汎用性を持つことを効果的に示しています。コードはhttps://github.com/OpenGVLab/InternVideo で公開されます。

InternVideo: 生成学習と判別学習を用いた一般的なビデオ基盤モデル | 最新論文 | HyperAI超神経