HyperAI超神经

NoisyRollout:利用数据增强强化视觉推理

Xiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du, Longxu Dou, Haonan Wang, Tianyu Pang, Michael Qizhe Shieh
发布日期: 4/18/2025
NoisyRollout:利用数据增强强化视觉推理
摘要

近期在强化学习(RL)领域的进展增强了视觉-语言模型(VLMs)的推理能力。然而,如何更有效地扩展测试时的计算资源以提高策略探索仍然是VLMs中较少涉及的问题。此外,VLMs在处理不完美的视觉感知时仍然面临挑战,这反过来又影响了后续的推理过程。为此,我们提出了一种简单而有效的强化学习方法——NoisyRollout,该方法通过混合干净图像和适度扭曲图像的轨迹来引入视觉感知和推理模式的定向多样性。 NoisyRollout无需额外的训练成本,通过引入视觉导向的归纳偏置来增强VLMs的探索能力。此外,NoisyRollout采用了一种噪声退火计划,该计划在训练过程中逐渐降低扭曲强度,确保在早期从噪声信号中获益,同时在后期保持训练的稳定性和可扩展性。仅使用2.1K个训练样本,NoisyRollout在五个涵盖推理和感知任务的域外基准测试中达到了开源强化学习调优模型中的最先进性能,同时保持了相当或甚至更好的域内性能。