2ヶ月前
合成データを用いたビデオ指示調整
Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li

要約
ビデオ大規模マルチモーダルモデル(LMMs)の開発は、ウェブから大量の高品質な生データを収集する難しさによって阻害されてきました。この問題に対処するため、私たちはビデオ指示追従用に特化した高品質な合成データセットを作成することを提案します。そのデータセットの名称はLLaVA-Video-178Kです。このデータセットには、詳細なキャプショニング、オープンエンド型質問応答(QA)、および選択肢付き質問応答など、主要なタスクが含まれています。このデータセットでの学習と既存の視覚指示調整データとの組み合わせにより、私たちは新しいビデオLMMであるLLaVA-Videoを導入します。実験結果は、LLaVA-Videoが様々なビデオベンチマークで優れた性能を達成していることを示しており、私たちのデータセットの有効性を強調しています。私たちは今後、このデータセット、生成パイプライン、およびモデルチェックポイントを公開する予定です。