Command Palette

Search for a command to run...

1 个月前

Ming-UniVision:基于统一连续Tokenizer的联合图像理解与生成

Ming-UniVision:基于统一连续Tokenizer的联合图像理解与生成

摘要

视觉标记化(visual tokenization)仍是统一自回归范式下视觉理解与生成的核心挑战。现有方法通常在离散潜在空间中使用标记化器,以与大型语言模型的词元(tokens)对齐,但这种量化误差会限制语义表达能力,降低视觉-语言理解性能。为解决这一问题,我们提出 MingTok——一种全新的视觉标记化方法家族,其采用连续潜在空间,实现统一的自回归生成与理解。由于理解任务偏好判别性强的高维特征,而生成任务则更倾向于紧凑的低层编码,因此为调和这两类任务之间的矛盾需求,MingTok 采用三阶段顺序架构:低层编码、语义扩展与视觉重建。基于此架构,Ming-UniVision 不再依赖任务特定的视觉表示,而是将多种视觉-语言任务统一于单一的自回归预测范式之下。通过将理解与生成任务均建模为共享连续空间中的下一个词元预测,该方法可无缝支持多轮、上下文感知的任务,如迭代理解、生成与编辑。实验结果表明,采用统一的连续视觉表示,能够有效调和理解与生成任务对标记化器的矛盾需求,从而在两个领域均达到当前最优水平的性能。我们希望本研究的发现能够推动连续域中统一视觉标记化的发展。相关推理代码与模型权重已开源,以惠及社区。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Ming-UniVision:基于统一连续Tokenizer的联合图像理解与生成 | 论文 | HyperAI超神经