Command Palette
Search for a command to run...

摘要
视觉标记化(visual tokenization)仍是统一自回归范式下视觉理解与生成的核心挑战。现有方法通常在离散潜在空间中使用标记化器,以与大型语言模型的词元(tokens)对齐,但这种量化误差会限制语义表达能力,降低视觉-语言理解性能。为解决这一问题,我们提出 MingTok——一种全新的视觉标记化方法家族,其采用连续潜在空间,实现统一的自回归生成与理解。由于理解任务偏好判别性强的高维特征,而生成任务则更倾向于紧凑的低层编码,因此为调和这两类任务之间的矛盾需求,MingTok 采用三阶段顺序架构:低层编码、语义扩展与视觉重建。基于此架构,Ming-UniVision 不再依赖任务特定的视觉表示,而是将多种视觉-语言任务统一于单一的自回归预测范式之下。通过将理解与生成任务均建模为共享连续空间中的下一个词元预测,该方法可无缝支持多轮、上下文感知的任务,如迭代理解、生成与编辑。实验结果表明,采用统一的连续视觉表示,能够有效调和理解与生成任务对标记化器的矛盾需求,从而在两个领域均达到当前最优水平的性能。我们希望本研究的发现能够推动连续域中统一视觉标记化的发展。相关推理代码与模型权重已开源,以惠及社区。