8ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro

概要

大規模言語モデル（LLMs）と指示微調整の著しい成功が、ビジョン言語モデル（VLMs）の進化を多用途の汎用モデルへと導いています。しかし、現在のVLMsが「画像にどのような物体があるか」や「指定されたバウンディングボックスに対応する物体は何か」といった観点から真正な物体レベルの画像理解能力を有しているかどうかは、まだ十分に研究されていません。我々の調査結果は、現在のVLMsの画像理解能力が視覚言語（VL）タスクにおけるゼロショット性能と強い相関関係にあることを示しています。これは、基本的な画像理解を重視することがVLMsがVLタスクで優れた成績を収めるために重要であることを示唆しています。物体レベルの画像理解能力を向上させるため、我々はパノプティックカラーマップに基づく新しい視覚プロンプト微調整スキームであるCrayon Promptを組み込んだCrayon Large Language and Vision mOdel (CoLLaVO)を提案します。さらに、視覚指示微調整中に物体レベルの画像理解能力を忘れないようにするためのDual QLoRAという学習戦略も提示し、これにより多くのVLベンチマークにおいてゼロショット設定での大幅な進歩を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro

概要

大規模言語モデル（LLMs）と指示微調整の著しい成功が、ビジョン言語モデル（VLMs）の進化を多用途の汎用モデルへと導いています。しかし、現在のVLMsが「画像にどのような物体があるか」や「指定されたバウンディングボックスに対応する物体は何か」といった観点から真正な物体レベルの画像理解能力を有しているかどうかは、まだ十分に研究されていません。我々の調査結果は、現在のVLMsの画像理解能力が視覚言語（VL）タスクにおけるゼロショット性能と強い相関関係にあることを示しています。これは、基本的な画像理解を重視することがVLMsがVLタスクで優れた成績を収めるために重要であることを示唆しています。物体レベルの画像理解能力を向上させるため、我々はパノプティックカラーマップに基づく新しい視覚プロンプト微調整スキームであるCrayon Promptを組み込んだCrayon Large Language and Vision mOdel (CoLLaVO)を提案します。さらに、視覚指示微調整中に物体レベルの画像理解能力を忘れないようにするためのDual QLoRAという学習戦略も提示し、これにより多くのVLベンチマークにおいてゼロショット設定での大幅な進歩を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

CoLLaVO: クレヨン大規模言語およびビジョンモデル | 記事 | HyperAI超神経