Command Palette
Search for a command to run...
Yuwei Niu Weiyang Jin Jiaqi Liao Chaoran Feng Peng Jin Bin Lin Zongjian Li Bin Zhu Weihao Yu Li Yuan

摘要
近年来,统一多模态模型取得了显著进展,但一个根本性问题依然存在:理解是否真正能够指导生成?为探究这一问题,我们提出了UniSandbox——一个解耦的评估框架,并搭配受控的合成数据集,以避免数据泄露,从而实现细致深入的分析。研究结果揭示了一个显著的“理解—生成”能力差距,主要体现在两个关键维度:推理生成与知识迁移。具体而言,在推理生成任务中,我们发现理解模块中引入显式的思维链(Chain-of-Thought, CoT)能够有效缩小这一差距;进一步研究表明,通过自训练方法可成功将该能力内化,从而在生成阶段实现隐式的推理能力。此外,在知识迁移任务中,我们发现CoT有助于生成过程中的新知识检索,同时发现基于查询的架构本身具备潜在的类CoT特性,这种特性会影响知识的迁移效果。UniSandbox为未来统一架构设计与训练策略的优化提供了初步洞见,旨在真正弥合理解与生成之间的鸿沟。代码与数据已开源,详见:https://github.com/PKU-YuanGroup/UniSandBox