8ヶ月前

マルチモーダル

視覚質問応答

アプローチ／フレームワーク

マルチモーダル

Mingze Xu Mingfei Gao Zhe Gan Hong-You Chen Zhengfeng Lai Haiming Gang Kai Kang Afshin Dehghan

概要

私たちは、詳細な空間意味論と長期的な時間的文脈を共に捉えつつ、一般的に使用される大規模言語モデル（LLM）のトークン制限を超えない訓練不要のビデオ大規模言語モデルとして、SlowFast-LLaVA（または略してSF-LLaVA）を提案します。これは、ビデオ LLM の入力に対して二つのストリームを持つ SlowFast デザインを使用することで、サンプリングされたビデオフレームから特徴量を効果的に集約することによって実現されます。具体的には、Slow パスは可能な限り多くの空間的詳細（例：24x24 トークン）を保ちながら低フレームレートで特徴量を抽出し、Fast パスは高フレームレートで動作しますが、より大きな空間プーリングストライド（例：6倍のダウンサンプリング）を使用して動きの手がかりに焦点を当てます。その結果、このデザインはビデオ内の詳細を理解するのに有益な空間的および時間的特徴量を適切に捉えることが可能になります。実験結果は、SF-LLaVA が幅広いビデオタスクにおいて既存の訓練不要手法よりも優れた性能を示していることを示しています。一部のベンチマークでは、ビデオデータセット上で微調整された最先端のビデオ LLM と同等かそれ以上の性能を達成しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

視覚質問応答

アプローチ／フレームワーク

マルチモーダル

Mingze Xu Mingfei Gao Zhe Gan Hong-You Chen Zhengfeng Lai Haiming Gang Kai Kang Afshin Dehghan

概要

私たちは、詳細な空間意味論と長期的な時間的文脈を共に捉えつつ、一般的に使用される大規模言語モデル（LLM）のトークン制限を超えない訓練不要のビデオ大規模言語モデルとして、SlowFast-LLaVA（または略してSF-LLaVA）を提案します。これは、ビデオ LLM の入力に対して二つのストリームを持つ SlowFast デザインを使用することで、サンプリングされたビデオフレームから特徴量を効果的に集約することによって実現されます。具体的には、Slow パスは可能な限り多くの空間的詳細（例：24x24 トークン）を保ちながら低フレームレートで特徴量を抽出し、Fast パスは高フレームレートで動作しますが、より大きな空間プーリングストライド（例：6倍のダウンサンプリング）を使用して動きの手がかりに焦点を当てます。その結果、このデザインはビデオ内の詳細を理解するのに有益な空間的および時間的特徴量を適切に捉えることが可能になります。実験結果は、SF-LLaVA が幅広いビデオタスクにおいて既存の訓練不要手法よりも優れた性能を示していることを示しています。一部のベンチマークでは、ビデオデータセット上で微調整された最先端のビデオ LLM と同等かそれ以上の性能を達成しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています