Command Palette
Search for a command to run...
LLaVA-OneVision:視覚タスクの簡単な転移
LLaVA-OneVision:視覚タスクの簡単な転移
Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li
概要
LLaVA-OneVisionは、LLaVA-NeXTブログシリーズにおいて蓄積したデータ、モデル、視覚表現に関する知見を統合して開発された、オープンな大規模多モーダルモデル(LMM)のファミリです。実験結果から、LLaVA-OneVisionは、単一画像、複数画像、動画の3つの重要なコンピュータビジョンシナリオにおいて、オープンなLMMの性能限界を同時に達成する初めての単一モデルであることが示されています。特に、LLaVA-OneVisionの設計により、異なるモダリティやシナリオ間での強力な転移学習が可能となり、新たなEmergent Capability(出現的機能)が得られています。具体的には、画像から動画へのタスク転移によって、強力な動画理解能力およびシナリオ間の汎用性が実証されています。