Command Palette

Search for a command to run...

2ヶ月前

推論分解を用いた自己報酬付き視覚言語モデル

推論分解を用いた自己報酬付き視覚言語モデル

要約

視覚言語モデル(VLMs)は、画像に実際には存在しない内容を述べる「視覚的幻覚」や、視覚情報を無視してテキストの事前知識に頼る「言語的ショートカット」の問題を抱えていることがよくある。これらの問題は、VLMの後期学習手法の多くが単純な正解一致に基づく検証に依存し、最終出力のみを監視するため、中間段階の視覚的推論に対して明示的な指導が与えられていないことに起因する。その結果、VLMは視覚的信号が疎らになり、言語ベースの推論を視覚的認識よりも優先して学習してしまう傾向がある。これを緩和するため、既存のいくつかの手法では人間によるアノテーションや外部の大規模モデルから抽出された知識(蒸留ラベル)を用いて視覚的監視を追加している。しかし、人間によるアノテーションは労力が大きくコストが高く、また外部の信号はモデルの進化する方策に適応できないため、分布のずれを引き起こし、報酬の悪用(reward hacking)を招く可能性がある。本論文では、強化学習を用いて外部の視覚的監視に依存せずに視覚的推論を向上させる自己報酬型手法「Vision-SR1」を提案する。Vision-SR1はVLMの推論を、視覚的認識と言語的推論の2段階に分解する。まず、モデルは入力画像に再び参照せずに質問に答えるのに十分な自己完結型の視覚的認識を生成するよう促される。この自己完結性を検証するために、同じVLMモデルを再びプロンプトし、生成された認識のみを入力として言語的推論を実行し、報酬を計算する。この自己報酬を最終出力に対する監視と組み合わせることで、視覚的認識と言語的推論の両方を強化するバランスの取れた学習信号が得られる。実験の結果、Vision-SR1は多様な視覚言語タスクにおいて視覚的推論能力を向上させ、視覚的幻覚を軽減し、言語的ショートカットへの依存を低減することを示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
推論分解を用いた自己報酬付き視覚言語モデル | 論文 | HyperAI超神経