2 个月前
ProVision:面向程序的视觉中心指令数据扩展方法用于多模态语言模型
Jieyu Zhang; Le Xue; Linxin Song; Jun Wang; Weikai Huang; Manli Shu; An Yan; Zixian Ma; Juan Carlos Niebles; Silvio Savarese; Caiming Xiong; Zeyuan Chen; Ranjay Krishna; Ran Xu

摘要
随着多模态应用的兴起,指令数据已成为训练能够理解复杂图像查询的多模态语言模型的关键。现有的方法依赖于强大但成本高昂的大规模语言模型(LLMs)或多模态语言模型(MLMs)来生成指令数据。然而,这些方法往往容易产生幻觉、版权问题,并且生成过程难以扩展和解释。在本研究中,我们提出了一种程序化的方法,该方法利用场景图作为图像的符号表示,并通过人类编写的程序系统地合成以视觉为中心的指令数据。我们的方法确保了数据生成过程的可解释性和可控性,并能高效地扩展同时保持事实准确性。通过实现24个单图像指令生成器、14个多图像指令生成器以及一个场景图生成管道,我们构建了一个可扩展且成本效益高的系统:ProVision,该系统可以为任何给定的图像生成涉及对象、属性、关系、深度等多样化的问答对。我们将这一方法应用于Visual Genome和DataComp数据集,生成了超过1000万个指令数据点,命名为ProVision-10M,并在多模态语言模型的预训练和指令调优阶段利用这些数据。当在指令调优阶段采用我们的单图像指令数据时,在CVBench的2D部分和3D部分分别实现了高达7%和8%的性能提升,同时在QBench2、RealWorldQA和MMMU上的表现也提高了3%。我们的多图像指令数据在Mantis-Eval上带来了8%的性能提升。将我们的数据用于xGen-MM-4B模型的预训练和微调阶段后,在11个基准测试中的平均性能提升了1.6%。