HyperAI
il y a 15 jours

OmniGen2 : Exploration de la Génération Multimodale Avancée

Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
OmniGen2 : Exploration de la Génération Multimodale Avancée
Résumé

Dans cette étude, nous présentons OmniGen2, un modèle génératif polyvalent et open-source conçu pour offrir une solution unifiée à diverses tâches de génération, telles que la transformation texte-en-image, l'édition d'images et la génération contextuelle. Contrairement à OmniGen v1, OmniGen2 dispose de deux chemins de décodage distincts pour les modalités texte et image, en utilisant des paramètres non partagés et un tokeniseur d'images dissocié. Cette architecture permet à OmniGen2 de s'appuyer sur les modèles existants de compréhension multimodale sans nécessiter le réajustement des entrées VAE (Variational Autoencoder), préservant ainsi les capacités originales de génération de texte. Pour faciliter l'entraînement d'OmniGen2, nous avons développé des pipelines complets pour la construction de données, couvrant les données d'édition d'images et de génération contextuelle. De plus, nous introduisons un mécanisme de réflexion adapté aux tâches de génération d'images et constitutions un jeu de données dédié basé sur OmniGen2. Malgré sa taille relativement modeste en termes de paramètres, OmniGen2 obtient des résultats compétitifs sur plusieurs benchmarks de tâches, notamment la transformation texte-en-image et l'édition d'images. Pour évaluer davantage la génération contextuelle, également appelée tâches guidées par le sujet, nous introduisons un nouveau benchmark nommé OmniContext. OmniGen2 atteint des performances d'état de l'art parmi les modèles open-source en matière de cohérence. Nous mettrons nos modèles, notre code d'entraînement, nos jeux de données et nos pipelines pour la construction de données à disposition afin de soutenir les recherches futures dans ce domaine. Page du projet : https://vectorspacelab.github.io/OmniGen2 ; Lien GitHub : https://github.com/VectorSpaceLab/OmniGen2