17 天前

超越下一个Token:自回归视觉生成中的Next-X预测

Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
超越下一个Token:自回归视觉生成中的Next-X预测
摘要

自回归(Autoregressive, AR)建模因其“下一个词元预测”范式,已成为当前最先进的语言与视觉生成模型的基础。传统上,“词元”被视为最小的预测单元,通常在语言中表现为离散符号,或在视觉任务中表现为量化后的图像块(patch)。然而,针对二维图像结构的最优词元定义仍是尚未解决的问题。此外,AR模型普遍存在暴露偏差(exposure bias)问题:训练阶段采用教师强制(teacher forcing)策略,导致推理时误差不断累积。本文提出一种通用化的AR框架——xAR,该框架将“词元”的概念扩展为任意实体X,其可表示单个图像块词元、细胞(由k×k个相邻图像块组成的组块)、子采样(由远距离图像块构成的非局部组块)、尺度(从粗到细的多分辨率结构),甚至整幅图像本身。此外,我们重新构建了离散词元分类任务,将其转化为连续实体回归,并在每个AR步骤中引入流匹配(flow-matching)方法。该方法在训练中以带有噪声的实体作为条件,而非真实词元,从而实现“噪声上下文学习”(Noisy Context Learning),有效缓解了暴露偏差问题。由此,xAR具备两大核心优势:(1)支持灵活的预测单元,能够捕捉不同层次的上下文粒度与空间结构;(2)通过摒弃对教师强制的依赖,显著减轻暴露偏差。在ImageNet-256图像生成基准测试中,我们的基础模型xAR-B(1.72亿参数)在生成质量上超越了参数量达6.75亿的DiT-XL/SiT-XL模型,同时推理速度提升20倍。此外,xAR-H模型以1.24的FID值创下新纪录,其运行速度比此前最优模型快2.2倍,且无需依赖视觉基础模型(如DINOv2)或复杂的引导间隔采样策略。