8ヶ月前

ビデオ理解

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Li Kunchang ; Li Xinhao ; Wang Yi ; He Yinan ; Wang Yali ; Wang Limin ; Qiao Yu

概要

ローカル冗長性とグローバル依存関係というビデオ理解における二つの課題に対処するため、本研究では革新的にMambaをビデオ領域に適応させました。提案されたVideoMambaは、既存の3次元畳み込みニューラルネットワークやビデオトランスフォーマーの制限を克服しています。その線形複雑度演算子により、高解像度の長いビデオ理解において重要な効率的な長期モデリングが可能となります。広範な評価によって、VideoMambaの四つの核心的能力が明らかになりました：(1) 新たな自己蒸留技術のおかげで、大規模データセットでの事前学習なしでも視覚領域でのスケーラビリティを実現；(2) 細かい動きの違い即便も短期行動認識に対する感度；(3) 伝統的な特徴量ベースモデルよりも大幅に進歩した長期ビデオ理解能力；(4) 他のモダリティとの互換性があり、マルチモーダル環境での堅牢性を示しています。これらの独自の利点を通じて、VideoMambaはビデオ理解分野における新たな基準を設定し、包括的なビデオ理解のためにスケーラブルかつ効率的な解決策を提供しています。すべてのコードとモデルは https://github.com/OpenGVLab/VideoMamba で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Li Kunchang ; Li Xinhao ; Wang Yi ; He Yinan ; Wang Yali ; Wang Limin ; Qiao Yu

概要

ローカル冗長性とグローバル依存関係というビデオ理解における二つの課題に対処するため、本研究では革新的にMambaをビデオ領域に適応させました。提案されたVideoMambaは、既存の3次元畳み込みニューラルネットワークやビデオトランスフォーマーの制限を克服しています。その線形複雑度演算子により、高解像度の長いビデオ理解において重要な効率的な長期モデリングが可能となります。広範な評価によって、VideoMambaの四つの核心的能力が明らかになりました：(1) 新たな自己蒸留技術のおかげで、大規模データセットでの事前学習なしでも視覚領域でのスケーラビリティを実現；(2) 細かい動きの違い即便も短期行動認識に対する感度；(3) 伝統的な特徴量ベースモデルよりも大幅に進歩した長期ビデオ理解能力；(4) 他のモダリティとの互換性があり、マルチモーダル環境での堅牢性を示しています。これらの独自の利点を通じて、VideoMambaはビデオ理解分野における新たな基準を設定し、包括的なビデオ理解のためにスケーラブルかつ効率的な解決策を提供しています。すべてのコードとモデルは https://github.com/OpenGVLab/VideoMamba で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています