X-Omni: Reinforcement Learning macht diskrete autoregressive Bildgenerativmodelle wieder großartig

Verschiedene Anstrengungen wurden unternommen, um das Paradigma der „Vorhersage des nächsten Tokens“ auf visuelle Inhalte zu erweitern, mit dem Ziel, einen einheitlichen Ansatz sowohl für die Bildgenerierung als auch die Bildverstehens zu schaffen. Dennoch sind Versuche, Bilder mittels autoregressiver Modellierung mit diskreten Tokens zu generieren, durch Probleme wie geringe visuelle Qualität, verzerrte Ausgaben und die Unfähigkeit, komplexe Anweisungen bei der Darstellung feinster Details zu befolgen, geprägt. Diese Mängel sind wahrscheinlich auf kumulative Fehler während der autoregressiven Inferenz oder Informationsverluste während des Diskretisierungsprozesses zurückzuführen. Möglicherweise aufgrund dieser Herausforderung hat sich die jüngste Forschung zunehmend von einheitlichen Modellierungsansätzen abgewandt und stattdessen auf die gemeinsame Trainingsstrategie aus Bildgenerierung mittels Diffusionsmodellen und Sprachgenerierung mittels autoregressiven Zielen konzentriert. In dieser Arbeit zeigen wir, dass Reinforcement Learning effektiv dazu beitragen kann, Artefakte zu reduzieren und die Generierungsqualität eines diskreten autoregressiven Modellierungsansatzes erheblich zu verbessern, wodurch eine nahtlose Integration von Bild- und Sprachgenerierung ermöglicht wird. Unser Framework besteht aus einem semantischen Bild-Tokenizer, einem einheitlichen autoregressiven Modell für Sprache und Bilder sowie einem offline arbeitenden Diffusions-Decodierer für die Bildgenerierung, das als X-Omni bezeichnet wird. X-Omni erreicht state-of-the-art-Leistungen bei Bildgenerierungsaufgaben mit einem 7-Billionen-Modell für Sprache, erzeugt Bilder mit hoher ästhetischer Qualität und zeichnet sich zudem durch starke Fähigkeiten im Verstehen von Anweisungen und der Darstellung langer Texte aus.