In-Context Edit est un cadre efficace pour l'édition d'images basée sur les instructions, publié par l'Université du Zhejiang et l'Université de Harvard le 29 avril 2025. Par rapport aux méthodes précédentes, ICEdit ne dispose que de 1% de paramètres entraînables (200M) et de 0,1% de données d'entraînement (50k), montrant une forte capacité de généralisation et peut gérer diverses tâches d'édition. Comparé aux modèles commerciaux tels que Gemini et GPT4o, il est plus open source, moins coûteux, plus rapide et plus puissant. Les résultats pertinents de l'article sontÉdition contextuelle : Activation de l'édition d'images pédagogiques avec génération contextuelle dans un transformateur de diffusion à grande échelle".
Ce tutoriel utilise une seule carte RTX 4090 comme ressource. Si vous souhaitez atteindre les 9 secondes officielles mentionnées pour générer des images, vous aurez besoin d'une carte graphique avec une configuration plus élevée. Ce projet ne prend actuellement en charge que les descriptions textuelles en anglais.
Modèles utilisés dans ce projet :
lora normale
FLUX.1-Fill-dev
2. Exemples de projets
Comparaison avec d'autres modèles économiques
3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.
2. Démonstration d'utilisation
❗️Conseils d’utilisation importants :
Échelle d'orientation : Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
Nombre d'étapes d'inférence : Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul.
Graine: Graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
Informations sur la citation
Merci à l'utilisateur Github SuperYang Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :
@misc{zhang2025ICEdit,
title={In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer},
author={Zechuan Zhang and Ji Xie and Yu Lu and Zongxin Yang and Yi Yang},
year={2025},
eprint={2504.20690},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.20690},
}