KV-Edit : Édition d’image sans entraînement pour une préservation précise de l’arrière-plan

La cohérence du fond reste un défi majeur dans les tâches de modification d’images. Malgré les avancées importantes, les approches existantes doivent encore faire face à un compromis entre préserver la similarité avec l’image d’origine et générer du contenu cohérent avec la cible. Dans ce travail, nous proposons KV-Edit, une méthode sans entraînement qui exploite le cache KV (Key-Value) des DiTs (Diffusion Transformers) pour préserver la cohérence du fond, en conservant les tokens du fond au lieu de les régénérer. Cette approche élimine la nécessité de mécanismes complexes ou d’un entraînement coûteux, permettant ainsi de générer de nouveaux éléments qui s’intègrent de manière fluide au fond dans les régions définies par l’utilisateur. Nous étudions également la consommation mémoire du cache KV pendant l’édition et optimisons la complexité spatiale à O(1) grâce à une méthode sans inversion. Notre approche est compatible avec tout modèle génératif basé sur DiT, sans nécessiter d’entraînement supplémentaire. Les expérimentations montrent que KV-Edit surpasse significativement les méthodes existantes en termes de cohérence du fond et de qualité d’image, dépassant même certaines approches basées sur l’entraînement. La page du projet est disponible à l’adresse suivante : https://xilluill.github.io/projectpages/KV-Edit