vor 3 Tagen

NextStep-1: Der Weg zur autoregressiven Bildgenerierung mit kontinuierlichen Token in Skalierung

NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu

Details der Forschungsarbeit anzeigen

NextStep-1: Der Weg zur autoregressiven Bildgenerierung mit kontinuierlichen Token in Skalierung

Abstract

Bisherige autoregressive (AR) Modelle für die Text-zu-Bild-Generierung stützen sich entweder auf rechenintensive Diffusionsmodelle zur Verarbeitung kontinuierlicher Bilddaten-Token oder verwenden Vektorquantisierung (VQ), um diskrete Token mit Quantisierungsverlusten zu erzeugen. In diesem Artikel erweitern wir das autoregressive Paradigma mit NextStep-1, einem 14-Mrd.-Parameter-Modell, das mit einem 157-Mio.-Parameter-Flow-Matching-Head kombiniert ist und sowohl auf diskreten Text-Token als auch auf kontinuierlichen Bild-Token mit einem Next-Token-Vorhersageziel trainiert wurde. NextStep-1 erreicht eine state-of-the-art-Leistung unter autoregressiven Modellen für Text-zu-Bild-Generierungsaufgaben und zeigt dabei starke Fähigkeiten in der hochfidelitätsorientierten Bildsynthese. Darüber hinaus zeigt unsere Methode hervorragende Leistung bei der Bildbearbeitung und unterstreicht so die Stärke und Vielseitigkeit unseres einheitlichen Ansatzes. Um die offene Forschung zu fördern, werden wir unseren Code und die Modelle der Gemeinschaft zur Verfügung stellen.