摘要

近年来，统一多模态模型取得了显著进展，但一个根本性问题依然存在：理解是否真正能够指导生成？为探究这一问题，我们提出了UniSandbox——一个解耦的评估框架，并搭配受控的合成数据集，以避免数据泄露，从而实现细致深入的分析。研究结果揭示了一个显著的“理解—生成”能力差距，主要体现在两个关键维度：推理生成与知识迁移。具体而言，在推理生成任务中，我们发现理解模块中引入显式的思维链（Chain-of-Thought, CoT）能够有效缩小这一差距；进一步研究表明，通过自训练方法可成功将该能力内化，从而在生成阶段实现隐式的推理能力。此外，在知识迁移任务中，我们发现CoT有助于生成过程中的新知识检索，同时发现基于查询的架构本身具备潜在的类CoT特性，这种特性会影响知识的迁移效果。UniSandbox为未来统一架构设计与训练策略的优化提供了初步洞见，旨在真正弥合理解与生成之间的鸿沟。代码与数据已开源，详见：https://github.com/PKU-YuanGroup/UniSandBox

源 PDF 查看代码