6ヶ月前

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chen Chen Mu Li

概要

最近の視覚変換器（Vision Transformer）に基づく動画モデルは、主に「画像の事前学習 → ファインチューニング」の枠組みに従っており、複数の動画ベンチマークにおいて優れた成果を上げています。しかし、事前学習済みの画像変換器モデルが極めて高い転移性を示していることを考慮すると、このような動画モデルに対して完全なファインチューニングを行うことは計算コストが高く、必ずしも必要ではないと考えられます。本研究では、事前学習済み画像モデル（Adapt pre-trained Image Models; AIM）を効率的な動画理解に適応する新しい手法を提案します。事前学習済みの画像モデルを固定した上で、軽量なアダプタ（Adapter）を少数追加することで、空間的適応、時間的適応、および統合的適応を導入し、段階的に画像モデルに時空間推論能力を付与します。実験の結果、4つの動画行動認識ベンチマークにおいて、我々の提案するAIMは、従来手法と比較して同等あるいは優れた性能を達成しつつ、チューナブルなパラメータ数を大幅に削減できることを示しました。本手法のシンプルさにより、異なる事前学習済み画像モデルにも一般に適用可能であり、今後より強力な画像基盤モデルを活用する可能性を秘めています。プロジェクトページは以下の通りです：\url{https://adapt-image-models.github.io/}。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chen Chen Mu Li

概要

最近の視覚変換器（Vision Transformer）に基づく動画モデルは、主に「画像の事前学習 → ファインチューニング」の枠組みに従っており、複数の動画ベンチマークにおいて優れた成果を上げています。しかし、事前学習済みの画像変換器モデルが極めて高い転移性を示していることを考慮すると、このような動画モデルに対して完全なファインチューニングを行うことは計算コストが高く、必ずしも必要ではないと考えられます。本研究では、事前学習済み画像モデル（Adapt pre-trained Image Models; AIM）を効率的な動画理解に適応する新しい手法を提案します。事前学習済みの画像モデルを固定した上で、軽量なアダプタ（Adapter）を少数追加することで、空間的適応、時間的適応、および統合的適応を導入し、段階的に画像モデルに時空間推論能力を付与します。実験の結果、4つの動画行動認識ベンチマークにおいて、我々の提案するAIMは、従来手法と比較して同等あるいは優れた性能を達成しつつ、チューナブルなパラメータ数を大幅に削減できることを示しました。本手法のシンプルさにより、異なる事前学習済み画像モデルにも一般に適用可能であり、今後より強力な画像基盤モデルを活用する可能性を秘めています。プロジェクトページは以下の通りです：\url{https://adapt-image-models.github.io/}。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

目的：画像モデルの適応による効率的な動画行動認識 | 記事 | HyperAI超神経