1 个月前

Ming-UniVision：基于统一连续Tokenizer的联合图像理解与生成

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv

摘要

视觉标记化（visual tokenization）仍是统一自回归范式下视觉理解与生成的核心挑战。现有方法通常在离散潜在空间中使用标记化器，以与大型语言模型的词元（tokens）对齐，但这种量化误差会限制语义表达能力，降低视觉-语言理解性能。为解决这一问题，我们提出 MingTok——一种全新的视觉标记化方法家族，其采用连续潜在空间，实现统一的自回归生成与理解。由于理解任务偏好判别性强的高维特征，而生成任务则更倾向于紧凑的低层编码，因此为调和这两类任务之间的矛盾需求，MingTok 采用三阶段顺序架构：低层编码、语义扩展与视觉重建。基于此架构，Ming-UniVision 不再依赖任务特定的视觉表示，而是将多种视觉-语言任务统一于单一的自回归预测范式之下。通过将理解与生成任务均建模为共享连续空间中的下一个词元预测，该方法可无缝支持多轮、上下文感知的任务，如迭代理解、生成与编辑。实验结果表明，采用统一的连续视觉表示，能够有效调和理解与生成任务对标记化器的矛盾需求，从而在两个领域均达到当前最优水平的性能。我们希望本研究的发现能够推动连续域中统一视觉标记化的发展。相关推理代码与模型权重已开源，以惠及社区。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Ming-UniVision：基于统一连续Tokenizer的联合图像理解与生成

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv6 more

摘要

用 AI 构建 AI

Hyper Newsletters

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv