2ヶ月前

LLaVA-OneVision: 簡易的な視覚タスク転送

Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li
LLaVA-OneVision: 簡易的な視覚タスク転送
要約

我々は、データ、モデル、および視覚表現に関する洞察を『LLaVA-NeXT』ブログシリーズでまとめ、開発したオープンな大規模マルチモーダルモデル(LMMs)のファミリーである「LLaVA-OneVision」を紹介します。実験結果は、「LLaVA-OneVision」が単一のモデルとして初めて、以下の3つの重要なコンピュータビジョンのシナリオにおいて、オープンなLMMsの性能限界を同時に押し広げていることを示しています:単画像シナリオ、複数画像シナリオ、およびビデオシナリオ。特に、「LLaVA-OneVision」の設計は異なるモダリティ/シナリオ間での強力な転移学習を可能にし、新たな能力が現れることを示しています。画像からビデオへのタスク転移を通じて、強力なビデオ理解能力和ならびにクロスシナリオ能力が明確に示されています。