MultiEdit : Progresser dans l'édition d'images basée sur les instructions sur des tâches diverses et exigeantes

Les méthodes actuelles de modification d’images basées sur des instructions (IBIE) peinent face à des tâches de modification complexes, en raison d’un nombre limité de types de modification et de taille des échantillons dans les jeux de données existants. En outre, la construction traditionnelle des jeux de données comporte souvent des paires image-légende bruitées, pouvant introduire des biais et limiter les capacités des modèles dans des scénarios de modification complexes. Pour remédier à ces limitations, nous introduisons MultiEdit, un jeu de données complet comprenant plus de 107 000 échantillons de haute qualité pour la modification d’images. Ce jeu de données couvre 6 tâches de modification exigeantes, grâce à une collection diversifiée de 18 types de modification non liés au transfert de style et de 38 opérations de transfert de style, s’étendant d’un transfert de style sophistiqué à des opérations sémantiques complexes telles que la modification par référence à une personne ou la modification de texte intégré à l’image. Nous proposons une nouvelle pipeline de construction de jeu de données, utilisant deux modèles linguistiques multimodaux à grande échelle (MLLM) pour générer respectivement des instructions de modification adaptatives visuelles et produire des images modifiées de haute fidélité. Des expériences étendues montrent que le fine-tuning de modèles fondamentaux open-source à l’aide de notre ensemble d’entraînement MultiEdit-Train améliore considérablement les performances des modèles sur les tâches de modification complexes dans notre benchmark proposé MultiEdit-Test, tout en préservant efficacement leurs capacités sur les benchmarks standards de modification. Nous estimons que MultiEdit constitue une ressource précieuse pour promouvoir la recherche vers des capacités IBIE plus diversifiées et plus exigeantes. Notre jeu de données est disponible à l’adresse suivante : [URL].