8ヶ月前

ビデオ理解

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Yi Wang Kunchang Li Yizhuo Li Yinan He Bingkun Huang Zhiyu Zhao Hongjie Zhang Jilan Xu Yi Liu Zun Wang

概要

基盤モデルは最近、コンピュータビジョンのさまざまな下流タスクで優れた性能を示しています。しかし、既存のほとんどのビジョン基盤モデルは画像レベルの事前学習と適応に焦点を当てており、動的かつ複雑なビデオレベルの理解タスクには限界があります。このギャップを埋めるために、生成的な自己監督ビデオ学習と識別的な自己監督ビデオ学習の両方を活用した一般的なビデオ基盤モデル「InternVideo」を提案します。具体的には、InternVideoはマスクされたビデオモデリングとビデオ言語対照学習を事前学習目標として効率的に探求し、これらの2つの補完的なフレームワークのビデオ表現を学習可能な方法で選択的に調整することで、様々なビデオアプリケーションの性能向上に貢献します。特別な工夫なしに、InternVideoは包括的なタスク（ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど）を含む39のビデオデータセットで最先端の性能を達成しました。特に、我々の手法は挑戦的なKinetics-400およびSomething-Something V2ベンチマークにおいてそれぞれ91.1%および77.2%のトップ1精度を得ることができました。これらの結果は全て、我々のInternVideoがビデオ理解において汎用性を持つことを効果的に示しています。コードはhttps://github.com/OpenGVLab/InternVideo で公開されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Yi Wang Kunchang Li Yizhuo Li Yinan He Bingkun Huang Zhiyu Zhao Hongjie Zhang Jilan Xu Yi Liu Zun Wang

概要

基盤モデルは最近、コンピュータビジョンのさまざまな下流タスクで優れた性能を示しています。しかし、既存のほとんどのビジョン基盤モデルは画像レベルの事前学習と適応に焦点を当てており、動的かつ複雑なビデオレベルの理解タスクには限界があります。このギャップを埋めるために、生成的な自己監督ビデオ学習と識別的な自己監督ビデオ学習の両方を活用した一般的なビデオ基盤モデル「InternVideo」を提案します。具体的には、InternVideoはマスクされたビデオモデリングとビデオ言語対照学習を事前学習目標として効率的に探求し、これらの2つの補完的なフレームワークのビデオ表現を学習可能な方法で選択的に調整することで、様々なビデオアプリケーションの性能向上に貢献します。特別な工夫なしに、InternVideoは包括的なタスク（ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど）を含む39のビデオデータセットで最先端の性能を達成しました。特に、我々の手法は挑戦的なKinetics-400およびSomething-Something V2ベンチマークにおいてそれぞれ91.1%および77.2%のトップ1精度を得ることができました。これらの結果は全て、我々のInternVideoがビデオ理解において汎用性を持つことを効果的に示しています。コードはhttps://github.com/OpenGVLab/InternVideo で公開されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています