Command Palette

Search for a command to run...

2日前

CapRL:強化学習を用いた密集画像記述能力の促進

Long Xing Xiaoyi Dong Yuhang Zang Yuhang Cao Jianze Liang Qidong Huang Jiaqi Wang Feng Wu Dahua Lin

CapRL:強化学習を用いた密集画像記述能力の促進

要約

画像キャプション生成は、視覚と言語の領域を橋渡しする基盤的なタスクであり、大規模視覚言語モデル(LVLM)の事前学習において重要な役割を果たしている。現在の最先端のキャプション生成モデルは、通常、監視付き微調整(SFT)によって学習されるが、このアプローチは人間による高コストかつスケーラブルでないデータのラベル付け、あるいは独自のモデルに依存しており、モデルが特定の正解を記憶してしまう傾向があり、多様性や創造性に富んだ記述を生成する能力が制限されることがある。SFTの限界を克服するため、本研究では、開かれた形式の画像キャプション生成タスクに検証可能な報酬を用いた強化学習(RLVR)の枠組みを適用することを提案する。しかし、主な課題は、キャプションの「良さ」という本質的に主観的な概念に対して客観的な報酬関数を設計することにある。そこで、本研究では、キャプションの質をその有用性に基づいて再定義する新たな学習フレームワーク「CapRL(Captioning Reinforcement Learning)」を提案する。すなわち、高品質なキャプションとは、視覚情報を得ずに言語モデルが対応する画像に関する質問に正確に回答できるようにすることを目的とする。CapRLは、LVLMがキャプションを生成し、別途用意された視覚情報を一切使用しない言語モデルがそのキャプションに基づいて複数選択式の質問に回答する精度から報酬を導出する、分離型の二段階パイプラインを採用している。本研究は、主観的な画像キャプション生成タスクにRLVRを初めて適用した最初の試みであり、CapRLが複数の設定において顕著な性能向上を達成することを実証した。CapRL-3Bがラベル付けしたCapRL-5Mのキャプションデータセット上で事前学習を行うことで、12のベンチマークにおいて大幅な性能向上が得られた。さらに、キャプション品質評価のためのPrismフレームワークにおいて、CapRLはQwen2.5-VL-72Bと同等の性能を達成し、ベースラインより平均8.4%の向上を示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CapRL:強化学習を用いた密集画像記述能力の促進 | 論文 | HyperAI超神経