2ヶ月前

CoLLaVO: クレヨン大規模言語およびビジョンモデル

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro
CoLLaVO: クレヨン大規模言語およびビジョンモデル
要約

大規模言語モデル(LLMs)と指示微調整の著しい成功が、ビジョン言語モデル(VLMs)の進化を多用途の汎用モデルへと導いています。しかし、現在のVLMsが「画像にどのような物体があるか」や「指定されたバウンディングボックスに対応する物体は何か」といった観点から真正な物体レベルの画像理解能力を有しているかどうかは、まだ十分に研究されていません。我々の調査結果は、現在のVLMsの画像理解能力が視覚言語(VL)タスクにおけるゼロショット性能と強い相関関係にあることを示しています。これは、基本的な画像理解を重視することがVLMsがVLタスクで優れた成績を収めるために重要であることを示唆しています。物体レベルの画像理解能力を向上させるため、我々はパノプティックカラーマップに基づく新しい視覚プロンプト微調整スキームであるCrayon Promptを組み込んだCrayon Large Language and Vision mOdel (CoLLaVO)を提案します。さらに、視覚指示微調整中に物体レベルの画像理解能力を忘れないようにするためのDual QLoRAという学習戦略も提示し、これにより多くのVLベンチマークにおいてゼロショット設定での大幅な進歩を達成しました。

CoLLaVO: クレヨン大規模言語およびビジョンモデル | 最新論文 | HyperAI超神経