NextStep-1: Der Weg zur autoregressiven Bildgenerierung mit kontinuierlichen Token in Skalierung

Bisherige autoregressive (AR) Modelle für die Text-zu-Bild-Generierung stützen sich entweder auf rechenintensive Diffusionsmodelle zur Verarbeitung kontinuierlicher Bilddaten-Token oder verwenden Vektorquantisierung (VQ), um diskrete Token mit Quantisierungsverlusten zu erzeugen. In diesem Artikel erweitern wir das autoregressive Paradigma mit NextStep-1, einem 14-Mrd.-Parameter-Modell, das mit einem 157-Mio.-Parameter-Flow-Matching-Head kombiniert ist und sowohl auf diskreten Text-Token als auch auf kontinuierlichen Bild-Token mit einem Next-Token-Vorhersageziel trainiert wurde. NextStep-1 erreicht eine state-of-the-art-Leistung unter autoregressiven Modellen für Text-zu-Bild-Generierungsaufgaben und zeigt dabei starke Fähigkeiten in der hochfidelitätsorientierten Bildsynthese. Darüber hinaus zeigt unsere Methode hervorragende Leistung bei der Bildbearbeitung und unterstreicht so die Stärke und Vielseitigkeit unseres einheitlichen Ansatzes. Um die offene Forschung zu fördern, werden wir unseren Code und die Modelle der Gemeinschaft zur Verfügung stellen.