HyperAIHyperAI

Command Palette

Search for a command to run...

合成データを用いたビデオ指示調整

Yuanhan Zhang Jinming Wu Wei Li Bo Li Zejun Ma Ziwei Liu Chunyuan Li

概要

ビデオ大規模マルチモーダルモデル(LMMs)の開発は、ウェブから大量の高品質な生データを収集する難しさによって阻害されてきました。この問題に対処するため、私たちはビデオ指示追従用に特化した高品質な合成データセットを作成することを提案します。そのデータセットの名称はLLaVA-Video-178Kです。このデータセットには、詳細なキャプショニング、オープンエンド型質問応答(QA)、および選択肢付き質問応答など、主要なタスクが含まれています。このデータセットでの学習と既存の視覚指示調整データとの組み合わせにより、私たちは新しいビデオLMMであるLLaVA-Videoを導入します。実験結果は、LLaVA-Videoが様々なビデオベンチマークで優れた性能を達成していることを示しており、私たちのデータセットの有効性を強調しています。私たちは今後、このデータセット、生成パイプライン、およびモデルチェックポイントを公開する予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています