HyperAI超神经

自回归语义视觉重建有助于VLMs更好地理解

Wang, Dianyi ; Song, Wei ; Wang, Yikun ; Wang, Siyuan ; Yu, Kaicheng ; Wei, Zhongyu ; Wang, Jiaqi
发布日期: 6/11/2025
自回归语义视觉重建有助于VLMs更好地理解
摘要

典型的大型视觉-语言模型(LVLMs)仅对文本序列应用自回归监督,而未能将视觉模态充分纳入学习过程。这导致了三个主要限制:(1) 无法利用没有配图说明的图像;(2) 配图说明可能遗漏关键的视觉细节;(3) 某些以视觉为中心的内容难以通过文本充分传达。因此,当前的 LVLMs 往往侧重于视觉到语言的对齐,而可能忽视了细粒度的视觉信息。尽管一些先前的研究探索了自回归图像生成,但如何有效利用自回归视觉监督来增强图像理解仍然是一个开放的挑战。在本文中,我们引入了一种新的方法——自回归语义视觉重建(ASVR),该方法能够在统一的自回归框架内实现视觉和文本模态的联合学习。我们发现,自回归地重建图像的原始外观并不能提升甚至可能会损害多模态理解能力。相反,自回归地重建图像的语义表示可以持续提高理解能力。值得注意的是,即使模型以连续图像特征作为输入,它们也能有效地重建离散的语义标记(tokens),从而在广泛的多模态理解基准测试中取得稳定且一致的改进。我们的方法在不同数据规模(556k-2M)和不同类型的大语言模型(LLM)骨干上均表现出显著的性能提升。具体而言,ASVR 在 14 个多模态基准测试中的平均分数提高了 5%。代码已发布在 https://github.com/AlenjandroWang/ASVR。