X-Omni : Le apprentissage par renforcement rend aux modèles de génération d’images autoregressifs discrets leur grandeur d’antan

De nombreux efforts ont été déployés pour étendre le paradigme de la « prédiction du prochain jeton » aux contenus visuels, dans l'objectif de concevoir une approche unifiée pour la génération et la compréhension d'images. Néanmoins, les tentatives visant à générer des images par modélisation autoregressive à l'aide de jetons discrets ont été confrontées à des problèmes tels qu'une fidélité visuelle faible, des sorties déformées, et une incapacité à respecter des instructions complexes lors de la représentation de détails complexes. Ces déficiences sont probablement imputables aux erreurs cumulées durant l'inférence autoregressive ou à la perte d'information survenue lors du processus de discrétisation. Probablement à cause de ce défi, les recherches récentes se sont progressivement tournées vers une approche conjointe d'entraînement : la génération d'images via des objectifs de diffusion, combinée à la génération de langage par des objectifs autoregressifs, abandonnant ainsi les approches unifiées. Dans ce travail, nous démontrons qu’un apprentissage par renforcement peut efficacement atténuer les artefacts et améliorer de manière significative la qualité de génération d’une méthode autoregressive à jetons discrets, permettant ainsi une intégration fluide de la génération d’images et de langage. Notre cadre, nommé X-Omni, comprend un tokeniseur d’image sémantique, un modèle autoregressif unifié pour le langage et les images, ainsi qu’un décodeur de diffusion hors ligne pour la génération d’images. X-Omni atteint des performances de pointe dans les tâches de génération d’images en utilisant un modèle linguistique de 7 milliards de paramètres, produisant des images de haute qualité esthétique tout en démontrant une forte capacité à suivre des instructions complexes et à représenter des textes longs.