Command Palette
Search for a command to run...
DreamOmni2 : Édition et génération basées sur des instructions multimodales

Résumé
Les avancées récentes dans le domaine de l’édition d’images guidée par des instructions et de la génération pilotée par un sujet ont suscité un intérêt croissant, mais ces deux tâches restent encore limitées dans leur capacité à répondre aux besoins pratiques des utilisateurs. L’édition basée uniquement sur des instructions textuelles peine souvent à capturer des détails précis des modifications souhaitées, rendant nécessaire le recours à des images de référence. Par ailleurs, la génération pilotée par un sujet est restreinte à la combinaison d’objets ou de personnes concrets, négligeant ainsi des concepts plus larges et abstraits. Pour surmonter ces défis, nous proposons deux nouvelles tâches : l’édition et la génération guidées par des instructions multimodales. Ces tâches prennent en charge à la fois des instructions textuelles et visuelles, et étendent leur portée à la fois aux concepts concrets et abstraits, ce qui renforce considérablement leurs applications pratiques. Nous introduisons DreamOmni2, un système conçu pour relever deux défis majeurs : la création de données et la conception du cadre du modèle. Notre pipeline de synthèse de données repose sur trois étapes : (1) l’utilisation d’une méthode de mélange de caractéristiques pour générer des données d’extraction couvrant à la fois des concepts abstraits et concrets, (2) la génération de données d’entraînement pour l’édition guidée par instructions multimodales à l’aide des modèles d’édition et d’extraction, et (3) l’application ultérieure du modèle d’extraction afin de produire des données d’entraînement pour l’édition multimodale guidée par instructions. En ce qui concerne le cadre du modèle, afin de gérer les entrées à plusieurs images, nous proposons une méthode d’encodage par index combinée à un décalage d’encodage de position, qui permet au modèle de distinguer clairement les différentes images et d’éviter toute confusion entre pixels. Par ailleurs, nous introduisons une stratégie d’entraînement conjoint avec un modèle de vision-langage (VLM) et notre modèle de génération/édition, afin d’améliorer le traitement d’instructions complexes. En outre, nous avons élaboré des benchmarks complets pour ces deux nouvelles tâches afin d’encourager leur développement. Les expérimentations montrent que DreamOmni2 atteint des résultats remarquables. Les modèles et le code source seront rendus publics.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.