3日前

NextStep-1：スケールにおける連続トークンを用いた自己回帰型画像生成へ

NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu

論文の詳細を見る

要約

テキストから画像生成を行うための主流の自己回帰（AR）モデルは、連続的な画像トークンを処理する際に計算負荷が非常に高い拡散モデルに依存しているものや、ベクトル量子化（VQ）を用いて離散的なトークンを取得するが、量子化誤差が生じるという課題を抱えている。本研究では、次世代の自己回帰アーキテクチャとして、140億パラメータの自己回帰モデルNextStep-1を提案する。このモデルは、1億5700万パラメータのフローマッチングヘッドと組み合わせられ、離散的なテキストトークンと連続的な画像トークンを用いて、次のトークン予測の目的関数に基づいて学習を行う。NextStep-1は、自己回帰モデルにおけるテキストから画像生成タスクにおいて、最先端の性能を達成しており、高忠実度の画像生成能力を示している。さらに、本手法は画像編集タスクにおいても優れた性能を発揮し、統一的なアプローチの強力さと汎用性を示している。オープンな研究を促進するため、本研究のコードおよびモデルをコミュニティに公開する予定である。