Command Palette
Search for a command to run...

摘要
尽管思维感知生成旨在提升复杂任务上的性能,但我们识别出一种关键的失效模式:现有的顺序性、自回归方法由于错误传播问题,反而可能导致性能下降。为系统性地分析这一问题,我们提出了ParaBench,一个专为评估文本与图像输出模态而设计的新基准。基于ParaBench的分析表明,性能下降与生成推理过程和最终图像之间的对齐程度差具有强烈相关性。为解决该问题,我们提出了一种并行多模态扩散框架——MMaDA-Parallel,该框架在整个去噪轨迹中实现了文本与图像之间的持续、双向交互。MMaDA-Parallel首先通过监督微调进行训练,随后进一步通过一种新颖的策略——并行强化学习(Parallel Reinforcement Learning, ParaRL)进行优化,该策略在去噪轨迹中引入语义奖励,以强制实现跨模态一致性。实验结果表明,我们的模型显著提升了跨模态对齐与语义一致性,在ParaBench上的输出对齐(Output Alignment)指标相较当前最优模型Bagel提升了6.9%,确立了一种更为稳健的思维感知图像生成范式。相关代码已开源,地址为:https://github.com/tyfeld/MMaDA-Parallel。