HyperAI

OmniGen2 : Exploration De La Génération Multimodale Avancée

1. Introduction au tutoriel

Construire

OmniGen2 est un modèle de génération multimodal open source, publié par l'Académie d'intelligence artificielle de Pékin (BAAI) le 16 juin 2025. Il vise à fournir une solution unifiée pour diverses tâches de génération, notamment la conversion de texte en image, l'édition d'images et la génération de contexte. Contrairement à OmniGen v1, OmniGen2 conçoit deux chemins de décodage indépendants pour les modalités texte et image, utilisant des paramètres non partagés et des segmenteurs d'images distincts. Cette conception permet à OmniGen2 de s'appuyer sur des modèles de compréhension multimodale existants sans avoir à réadapter les entrées VAE, conservant ainsi les capacités de génération de texte d'origine. Son innovation principale réside dans son architecture à double chemin et son mécanisme d'auto-réflexion, devenus une nouvelle référence pour les modèles multimodaux open source actuels. Les résultats de l'article sont les suivants :OmniGen2 : de l'exploration à la génération multimodale avancée".

Les ressources informatiques de ce tutoriel utilisent une seule carte RTX A6000, et les invites en anglais sont actuellement plus efficaces.

2. Affichage des effets

Quelques exemples d’effets avec OmniGen2 :

Démonstration de la fonction d'édition d'images OmniGen2
Démonstration de la fonctionnalité de génération de contexte OmniGen2

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Le premier exemple est une description d'image, les deuxième et troisième exemples sont des images de visualisation et les exemples restants sont l'édition d'image.

Paramètres spécifiques :

  • Hauteur : hauteur.
  • Largeur : largeur.
  • Échelle de guidage du texte : Échelle de guidage du texte.
  • Échelle de guidage d'image : Échelle de guidage d'image.
  • Début de la plage CFG : Début de la plage.
  • Fin de plage CFG : Fin de plage.
  • Planificateur : Planificateur.
  • Étapes d'inférence : Étapes d'inférence.
  • Nombre d'images par invite : le nombre d'images par invite.
  • Graine : graine.
  • max_input_image_side_length : longueur maximale du côté de l'image d'entrée.
  • max_pixels : Nombre maximal de pixels.

résultat

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{wu2025omnigen2,
  title={OmniGen2: Exploration to Advanced Multimodal Generation},
  author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
  journal={arXiv preprint arXiv:2506.18871},
  year={2025}
}