Command Palette
Search for a command to run...
Long Xing Xiaoyi Dong Yuhang Zang Yuhang Cao Jianze Liang Qidong Huang Jiaqi Wang Feng Wu Dahua Lin

摘要
图像描述(Image Captioning)是一项基础性任务,旨在连接视觉与语言两个领域,在大型视觉-语言模型(LVLMs)的预训练过程中发挥着关键作用。当前最先进的图像描述模型通常采用监督微调(Supervised Fine-Tuning, SFT)方式进行训练,而SFT依赖于人工标注或专有模型生成的昂贵且难以扩展的标注数据。这种范式往往导致模型对特定“标准答案”产生记忆,从而限制了其泛化能力,也难以生成多样且富有创造性的描述。为克服SFT的局限性,我们提出将可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)范式应用于开放式的图像描述任务。然而,一个主要挑战在于:如何为本就具有主观性的“优质描述”设计一个客观的奖励函数。为此,我们提出了一种名为CapRL(Captioning Reinforcement Learning)的新型训练框架,通过其实用性重新定义图像描述的质量——即高质量的描述应能使一个不依赖视觉信息的语言模型准确回答与该图像相关的问题。CapRL采用解耦的两阶段流程:首先由大型视觉-语言模型生成描述,随后通过一个独立的、无视觉输入的语言模型,仅依据该描述来回答多选题,其回答准确率即作为客观奖励信号。作为首个将RLVR应用于主观图像描述任务的研究,我们证明了CapRL在多种场景下均能显著提升性能。在由CapRL-3B模型标注的CapRL-5M数据集上进行预训练后,模型在12个基准测试中均取得显著提升。此外,在Prism图像描述质量评估框架中,CapRL的性能可与Qwen2.5-VL-72B相媲美,同时相较基线模型平均提升8.4%。