HyperAI超神经
13 days ago

VisionThink:通过强化学习实现智能高效的视觉语言模型

Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
VisionThink:通过强化学习实现智能高效的视觉语言模型
摘要

近期视觉-语言模型(VLMs)的进展通过增加视觉标记的数量提高了性能,这些视觉标记通常比文本标记长得多。然而,我们观察到大多数现实场景并不需要如此多的视觉标记。尽管在一小部分与光学字符识别(OCR)相关的任务中,性能显著下降,但在其他大多数通用视觉问答(VQA)任务中,仅使用1/4分辨率的图像模型仍能准确执行。因此,我们提出了一种动态处理不同样本的方法,并引入了一种新的视觉标记压缩范式——VisionThink。该方法从低分辨率图像开始,并智能判断是否足以解决问题;如果不足,模型可以输出一个特殊标记以请求更高分辨率的图像。与现有的高效VLM方法相比,后者通常使用固定的剪枝比例或阈值来压缩标记,而VisionThink则能够自主决定每个案例是否需要压缩标记。因此,它在OCR相关任务上展示了强大的细粒度视觉理解能力,同时在较简单的任务上大幅节省了视觉标记。我们采用了强化学习,并提出了LLM-as-Judge策略,成功将RL应用于通用VQA任务。此外,我们精心设计了奖励函数和惩罚机制,以实现稳定且合理的图像缩放调用比率。大量实验表明我们的方法具有优越性、高效性和有效性。我们的代码可在https://github.com/dvlab-research/VisionThink获取。