HyperAIHyperAI

Command Palette

Search for a command to run...

X-Omni : Le apprentissage par renforcement rend aux modèles de génération d’images autoregressifs discrets leur grandeur d’antan

Zigang Geng Yibing Wang Yeyao Ma Chen Li Yongming Rao Shuyang Gu Zhao Zhong et al

Résumé

De nombreux efforts ont été déployés pour étendre le paradigme de la « prédiction du prochain jeton » aux contenus visuels, dans l'objectif de concevoir une approche unifiée pour la génération et la compréhension d'images. Néanmoins, les tentatives visant à générer des images par modélisation autoregressive à l'aide de jetons discrets ont été confrontées à des problèmes tels qu'une fidélité visuelle faible, des sorties déformées, et une incapacité à respecter des instructions complexes lors de la représentation de détails complexes. Ces déficiences sont probablement imputables aux erreurs cumulées durant l'inférence autoregressive ou à la perte d'information survenue lors du processus de discrétisation. Probablement à cause de ce défi, les recherches récentes se sont progressivement tournées vers une approche conjointe d'entraînement : la génération d'images via des objectifs de diffusion, combinée à la génération de langage par des objectifs autoregressifs, abandonnant ainsi les approches unifiées. Dans ce travail, nous démontrons qu’un apprentissage par renforcement peut efficacement atténuer les artefacts et améliorer de manière significative la qualité de génération d’une méthode autoregressive à jetons discrets, permettant ainsi une intégration fluide de la génération d’images et de langage. Notre cadre, nommé X-Omni, comprend un tokeniseur d’image sémantique, un modèle autoregressif unifié pour le langage et les images, ainsi qu’un décodeur de diffusion hors ligne pour la génération d’images. X-Omni atteint des performances de pointe dans les tâches de génération d’images en utilisant un modèle linguistique de 7 milliards de paramètres, produisant des images de haute qualité esthétique tout en démontrant une forte capacité à suivre des instructions complexes et à représenter des textes longs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp