3 天前
NextStep-1:面向大规模连续Token的自回归图像生成
NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu

摘要
当前主流的文本到图像生成自回归(AR)模型,要么依赖于计算开销巨大的扩散模型来处理连续的图像标记,要么采用向量量化(VQ)方法获取离散标记,但会引入量化误差。本文提出NextStep-1,一种基于140亿参数的自回归模型,搭配1.57亿参数的流匹配(flow matching)头,通过在离散文本标记与连续图像标记上联合训练,并采用下一标记预测目标,进一步推动了自回归范式的进展。NextStep-1在文本到图像生成任务中达到了自回归模型的最先进性能,展现出卓越的高保真图像生成能力。此外,我们的方法在图像编辑任务中也表现出色,充分体现了该统一框架的强大性能与广泛适用性。为促进开放研究,我们将向社区公开发布相关代码与模型。