Le projet KV-Edit a été lancé par l'École d'intelligence artificielle de l'Université Tsinghua le 25 février 2025. Le modèle est une méthode d'édition d'image sans formation qui peut maintenir strictement la cohérence d'arrière-plan entre l'image d'origine et l'image éditée, et a obtenu des performances impressionnantes sur diverses tâches d'édition, notamment l'ajout, la suppression et le remplacement d'objets. Le cœur de KV-Edit est d'utiliser le cache KV pour stocker les paires clé-valeur des balises d'arrière-plan. Au cours du processus d'inversion d'image, ces paires clé-valeur sont conservées et, au cours de l'étape de débruitage, elles sont combinées avec le contenu du premier plan pour générer un nouveau contenu parfaitement intégré à l'arrière-plan. Cette approche évite le recours à des mécanismes complexes ou à une formation coûteuse, tout en garantissant la cohérence de l’arrière-plan et la qualité globale de l’image. Les résultats pertinents de l'article sontKV-Edit : retouche d'images sans formation pour une préservation précise de l'arrière-plan".
Ce tutoriel utilise des ressources pour une seule carte A6000.
👉 Le projet fournit deux modèles de modèles :
black-forest-labs/FLUX.1-dev: FLUX.1 [dev] est un transformateur de flux rectifié de 12 milliards de paramètres capable de générer des images à partir de descriptions textuelles.
black-forest-labs/FLUX.1-rapide: FLUX.1 [schnell] est un transformateur de flux rectifié de 12 milliards de paramètres capable de générer des images à partir de descriptions textuelles.
Exemples de projets
2. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.
2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle
Mesures: 1️⃣ Téléchargez l’image que vous souhaitez modifier. 2️⃣ Remplissez votre mot source et cliquez sur le bouton « inverser » pour effectuer l'inversion de l'image. 3️⃣ Utilisez l’outil Pinceau pour peindre sur la zone de votre masque. 4️⃣ Remplissez votre repère cible et ajustez les hyperparamètres. 5️⃣ Cliquez sur le bouton « Modifier » pour générer votre image modifiée.
❗️Conseils d’utilisation importants :
Les images ne peuvent pas dépasser 100 Ko.
Lorsque vous utilisez la version basée sur l'inversion, vous n'avez besoin d'inverser chaque image qu'une seule fois, puis vous pouvez répéter les étapes 3 à 5 pour plusieurs tentatives d'édition !
re_init signifie générer un nouveau contenu en utilisant un mélange d'images avec du bruit au lieu du résultat inversé.
Lorsque l'option attn_mask est cochée, un masque doit être saisi avant que l'inversion ne soit effectuée.
Lorsque le masque est grand et que moins d'étapes de saut ou de re_init sont utilisées, le contenu de la zone masquée peut être discontinu avec l'arrière-plan. Vous pouvez essayer d'augmenter attn_scale.
inverse signifie inversion, et edit signifie éditer pour supprimer l'arrière-plan.
Le nombre d'étapes de saut contrôle le nombre d'étapes de saut.
Guidage d'inversion Paramètres de guidage d'inversion.
Guide de réduction du bruit Paramètres de guidage de réduction du bruit.
Échange et discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
Informations sur la citation
Merci à l'utilisateur Github zhangjunchang Pour le déploiement de ce tutoriel, les informations de référence du projet sont les suivantes :
@article{zhu2025kv,
title={KV-Edit: Training-Free Image Editing for Precise Background Preservation},
author={Zhu, Tianrui and Zhang, Shiyi and Shao, Jiawei and Tang, Yansong},
journal={arXiv preprint arXiv:2502.17363},
year={2025}
}