OmniGen2 : Une Avancée Majeure dans la Génération Multimodale
Dans cette étude, nous présentons OmniGen2, un modèle génératif open-source conçu pour prendre en charge diverses tâches de génération, telles que la création de textes à partir d'images, l'édition d'images et la génération contextuelle. Contrairement à sa version précédente, OmniGen, OmniGen2 utilise deux chemins de décodage distincts pour le texte et les images, chacun doté de ses propres paramètres et d’un tokeniseur d'image indépendant. Cette architecture permet à OmniGen2 de fonctionner avec des modèles multimodaux existants sans modifier les entrées nécessaires pour les auto-encodeurs variationnels (VAEs), préservant ainsi ses performances remarquables en génération textuelle. Pour entraîner OmniGen2, nous avons développé des pipelines de données complets incluant des données spécifiques à l'édition d'image et à la génération contextuelle. Nous avons également mis en place un mécanisme de réflexion adapté à la génération d'images et créé un ensemble de données réflexion dédié à cette fin. Bien que OmniGen2 ne soit pas particulièrement volumineux en termes de paramètres, il s'avère performant dans des domaines comme la transformation de texte en image et l'édition d'images. En ce qui concerne la génération contextuelle, également connue sous le nom de tâches guidées par le sujet, nous avons établi une nouvelle référence appelée OmniContext. Les résultats obtenus par OmniGen2 en ce domaine sont remarquables, avec une cohérence de pointe parmi les modèles open-source disponibles. Notre objectif est de partager tous nos modèles, notre code d'entraînement, nos ensembles de données et nos pipelines de données afin de soutenir la recherche future. Vous pouvez consulter la page du projet et le dépôt GitHub pour accéder à plus d'informations : Page du projet : https://vectorspacelab.github.io/OmniGen2 Dépôt GitHub : https://github.com/VectorSpaceLab/OmniGen2 Ces contributions visent à faciliter l'avancement des travaux dans le domaine de la génération multimodale, en mettant à disposition des outils et des ressources permettant aux chercheurs de tester et d'améliorer leurs propres approches. OmniGen2 représente donc non seulement un progrès technique significatif, mais juga un engagement fort en faveur de l'ouverture et de la collaboration scientifique.