8ヶ月前

ビデオ理解

視覚質問応答

Video Captioning

マルチモーダル

コンピュータビジョン

Yuanhan Zhang Jinming Wu Wei Li Bo Li Zejun Ma Ziwei Liu Chunyuan Li

概要

ビデオ大規模マルチモーダルモデル（LMMs）の開発は、ウェブから大量の高品質な生データを収集する難しさによって阻害されてきました。この問題に対処するため、私たちはビデオ指示追従用に特化した高品質な合成データセットを作成することを提案します。そのデータセットの名称はLLaVA-Video-178Kです。このデータセットには、詳細なキャプショニング、オープンエンド型質問応答（QA）、および選択肢付き質問応答など、主要なタスクが含まれています。このデータセットでの学習と既存の視覚指示調整データとの組み合わせにより、私たちは新しいビデオLMMであるLLaVA-Videoを導入します。実験結果は、LLaVA-Videoが様々なビデオベンチマークで優れた性能を達成していることを示しており、私たちのデータセットの有効性を強調しています。私たちは今後、このデータセット、生成パイプライン、およびモデルチェックポイントを公開する予定です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

視覚質問応答

Video Captioning

マルチモーダル

コンピュータビジョン

Yuanhan Zhang Jinming Wu Wei Li Bo Li Zejun Ma Ziwei Liu Chunyuan Li

概要

ビデオ大規模マルチモーダルモデル（LMMs）の開発は、ウェブから大量の高品質な生データを収集する難しさによって阻害されてきました。この問題に対処するため、私たちはビデオ指示追従用に特化した高品質な合成データセットを作成することを提案します。そのデータセットの名称はLLaVA-Video-178Kです。このデータセットには、詳細なキャプショニング、オープンエンド型質問応答（QA）、および選択肢付き質問応答など、主要なタスクが含まれています。このデータセットでの学習と既存の視覚指示調整データとの組み合わせにより、私たちは新しいビデオLMMであるLLaVA-Videoを導入します。実験結果は、LLaVA-Videoが様々なビデオベンチマークで優れた性能を達成していることを示しており、私たちのデータセットの有効性を強調しています。私たちは今後、このデータセット、生成パイプライン、およびモデルチェックポイントを公開する予定です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています