Inversion Directe : Amélioration de l'Édition Basée sur la Diffusion avec 3 Lignes de Code

Les modèles de diffusion guidés par le texte ont révolutionné la génération et l'édition d'images, offrant une réalité exceptionnelle et une grande diversité. Plus précisément, dans le contexte de l'édition basée sur la diffusion, où une image source est modifiée selon un prompt cible, le processus commence par l'acquisition d'un vecteur latent bruité correspondant à l'image source via le modèle de diffusion. Ce vecteur est ensuite alimenté dans des branches de diffusion séparées pour l'édition source et cible. La précision de ce processus d'inversion influence considérablement le résultat final de l'édition, affectant à la fois la préservation du contenu essentiel de l'image source et la fidélité des modifications selon le prompt cible. Les techniques d'inversion précédentes visaient à trouver une solution unifiée dans les deux branches de diffusion. Cependant, nos analyses théoriques et empiriques montrent que la dissociation de ces branches conduit à une séparation distincte des responsabilités pour la préservation du contenu essentiel et la garantie de la fidélité des modifications. Sur cette base, nous introduisons « Direct Inversion », une nouvelle technique permettant d'atteindre des performances optimales dans les deux branches avec seulement trois lignes de code. Pour évaluer les performances en édition d'images, nous présentons PIE-Bench, un benchmark d'édition comprenant 700 images représentant diverses scènes et types d'édition, accompagnées d'annotations polyvalentes et de métriques d'évaluation exhaustives. Comparativement aux techniques d'inversion basées sur l'optimisation les plus avancées actuellement disponibles, notre solution non seulement offre des performances supérieures sur 8 méthodes d'édition mais réalise également presque un ordre de grandeur d'accélération.Note : - "PIE-Bench" a été conservé tel quel car il s'agit probablement du nom propre du benchmark.- "Direct Inversion" a également été conservé tel quel car il s'agit du nom spécifique de la technique introduite.- "prompt" a été traduit par "prompt" car c'est un terme couramment utilisé en français dans ce domaine.- "vecteur latent bruité" est une traduction directe qui conserve le sens technique.- "branches de diffusion" est utilisé pour traduire "diffusion branches", ce qui est courant en français dans ce contexte.