HyperAI超神经
8 days ago

斑马-CoT:一种交叉视觉语言推理数据集

Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum
斑马-CoT:一种交叉视觉语言推理数据集
摘要

人类在解决复杂问题时,常常借助视觉辅助工具,例如图表或草图。训练多模态模型也实现类似能力,称为“视觉思维链”(Visual Chain of Thought,Visual CoT),但由于以下两个原因面临挑战:(1)现有的视觉CoT性能较差,这限制了强化学习的应用;(2)缺乏高质量的视觉CoT训练数据。我们引入了Zebra-CoT,这是一个包含182,384个样本的多样化大规模数据集,其中包含逻辑连贯的文本与图像交织推理过程。我们重点关注四类任务,其中绘图或视觉推理尤为自然,包括几何、物理和算法等科学问题;视觉搜索和拼图等二维视觉推理任务;3D多跳推理、具身化与机器人规划等三维推理任务;以及视觉逻辑问题和国际象棋等战略游戏。在Zebra-CoT训练语料上对Anole-7B模型进行微调,使我们在测试集上的准确率提升了+12%,并在标准视觉语言模型(VLM)基准测试中实现了最高+13%的性能提升。对Bagel-7B模型进行微调后,生成的模型能够产生高质量的文本与图像交织推理链,这进一步证明了Zebra-CoT在提升多模态推理能力方面的有效性。我们已开源该数据集和相关模型,以支持视觉CoT的研究与评估。