Pas d'humains nécessaires : Recherche de triplets d'édition d'images autonome de haute qualité

Les avancées récentes en modélisation générative permettent des assistants de modification d'images qui suivent des instructions en langage naturel sans nécessiter d'entrée supplémentaire de l'utilisateur. Leur entraînement supervisé exige des millions de triplets : image originale, instruction, image modifiée. Cependant, l'extraction d'exemples précis au niveau des pixels est difficile. Chaque modification doit affecter uniquement les régions spécifiées par l'instruction, préserver la cohérence stylistique, respecter la plausibilité physique et conserver un attrait visuel. L'absence de métriques robustes pour évaluer la qualité des modifications limite l'automatisation fiable à grande échelle. Nous présentons une pipeline automatisée et modulaire qui extrait des triplets de haute fidélité sur divers domaines, résolutions, complexités d'instructions et styles. Basée sur des modèles génératifs publics et fonctionnant sans intervention humaine, notre système utilise un validateur Gemini adapté aux tâches pour évaluer directement l'adéquation des instructions et l'esthétique, éliminant ainsi tout besoin de modèles de segmentation ou de localisation. L'inversion et le bootstrapping compositionnel augmentent d'environ 2,2 fois l'ensemble des triplets extrait, permettant ainsi d'obtenir un grand volume de données d'entraînement de haute fidélité. En automatisant les étapes d'annotation les plus répétitives, cette approche permet d'atteindre une nouvelle échelle d'entraînement sans effort de labelisation humaine. Pour démocratiser la recherche dans ce domaine exigeant en ressources, nous mettons à disposition NHR-Edit : un ensemble de données open source comprenant 358 000 triplets de haute qualité. Dans la plus grande évaluation croisée entre ensembles de données, il dépasse toutes les alternatives publiques. Nous mettons également à disposition Bagel-NHR-Edit, un modèle Bagel finement ajusté, qui atteint des métriques de pointe dans nos expériences.