HyperAI超神经
19 days ago

MiCo:多图像对比强化视觉推理

Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
MiCo:多图像对比强化视觉推理
摘要

这项研究探讨了如何通过链式思维(Chain-of-Thought, CoT)推理来连接多张图像中的视觉线索。一种直接的方法是将基于规则的强化学习应用于视觉-语言模型(Vision-Language Models, VLMs)。然而,这些方法通常依赖于人工整理的问题-答案对,当处理细粒度的视觉细节和跨图像的复杂逻辑时,这尤为困难。受自监督视觉表示学习的启发,我们观察到图像中存在内在约束,可以作为监督信号。基于这一见解,我们构建了包含同一图像的两个增强视图和第三个相似但不同的图像的三元组。在训练过程中,模型被提示生成一个推理过程来比较这些图像(即判断相同或不同)。然后我们使用基于规则的强化学习来优化模型。由于高视觉相似性和增强视图的存在,模型必须关注细微的视觉变化并进行逻辑推理才能成功。实验表明,尽管仅在视觉比较任务上进行训练,所学得的推理能力能够有效泛化到各种问题上。无需依赖任何人工标注的问题-答案对,我们的方法在多图像推理基准测试中取得了显著改进,并在一般视觉任务中表现出色。