Exécuter ce Notebook Discuter sur Discord

Date

il y a 9 mois

Taille

370.45 MB

Balises

Classification D'images

Génération D'images

Licence

Other

GitHub

River-Zhang/ICEdit

URL du document

2504.20690

1. Introduction au tutoriel

In-Context Edit (ICEdit) est un framework d'édition d'images basé sur des instructions et à haute efficacité, développé conjointement par l'Université du Zhejiang et l'Université Harvard et publié le 29 avril 2025. Comparé aux méthodes précédentes, ICEdit ne nécessite que 1% de paramètres entraînables (200 millions) et 0,1% de données d'entraînement (50 000), démontrant ainsi une forte capacité de généralisation et la possibilité de gérer diverses tâches d'édition. Plus open source, moins coûteux, plus rapide et plus performant que les modèles commerciaux tels que Gemini et GPT4o, ICEdit est disponible en plusieurs articles de recherche. Édition contextuelle : Activation de l'édition d'images pédagogiques avec génération contextuelle dans un transformateur de diffusion à grande échelle .

Ce tutoriel utilise une seule carte RTX 4090 comme ressource. Si vous souhaitez atteindre les 9 secondes officielles mentionnées pour générer des images, vous aurez besoin d'une carte graphique avec une configuration plus élevée. Ce projet ne prend actuellement en charge que les descriptions textuelles en anglais.

Modèles utilisés dans ce projet :

lora normale
FLUX.1-Fill-dev

2. Exemples de projets

Comparaison avec d'autres modèles économiques

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration d'utilisation

❗️Conseils d’utilisation importants :

Échelle d'orientation : Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
Nombre d'étapes d'inférence : Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul.
Graine: Graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github SuperYang Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@misc{zhang2025ICEdit,
      title={In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer}, 
      author={Zechuan Zhang and Ji Xie and Yu Lu and Zongxin Yang and Yi Yang},
      year={2025},
      eprint={2504.20690},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.20690}, 
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

il y a 2 mois

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

il y a 2 mois

LongCat-Image-Edit-Interface : Un Système D’édition D’images Bilingue Piloté Par Texte

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 9 mois

Taille

370.45 MB

Balises

Classification D'images

Génération D'images

Licence

Other

GitHub

River-Zhang/ICEdit

URL du document

2504.20690

1. Introduction au tutoriel

Ce tutoriel utilise une seule carte RTX 4090 comme ressource. Si vous souhaitez atteindre les 9 secondes officielles mentionnées pour générer des images, vous aurez besoin d'une carte graphique avec une configuration plus élevée. Ce projet ne prend actuellement en charge que les descriptions textuelles en anglais.

Modèles utilisés dans ce projet :

lora normale
FLUX.1-Fill-dev

2. Exemples de projets

Comparaison avec d'autres modèles économiques

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration d'utilisation

❗️Conseils d’utilisation importants :

Échelle d'orientation : Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
Nombre d'étapes d'inférence : Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul.
Graine: Graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.

4. Discussion

Informations sur la citation

Merci à l'utilisateur Github SuperYang Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@misc{zhang2025ICEdit,
      title={In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer}, 
      author={Zechuan Zhang and Ji Xie and Yu Lu and Zongxin Yang and Yi Yang},
      year={2025},
      eprint={2504.20690},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.20690}, 
}

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

il y a 3 mois

FLUX.2-dev : Modèle De Génération Et D’édition D’images

il y a 2 mois

Ovis-Image : Modèle De Génération d'images De Haute Qualité

il y a 2 mois

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

il y a 2 mois

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

il y a 2 mois

Tencent HunyuanVideo-Foley

il y a un mois

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

il y a 2 mois

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

il y a 2 mois

LongCat-Image-Edit-Interface : Un Système D’édition D’images Bilingue Piloté Par Texte

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Édition Contextuelle : Génération Et Édition d'images Pilotées Par Commandes

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Édition Contextuelle : Génération Et Édition d'images Pilotées Par Commandes

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Ovis-Image : Modèle De Génération d'images De Haute Qualité

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

Tencent HunyuanVideo-Foley

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

LongCat-Image-Edit-Interface : Un Système D’édition D’images Bilingue Piloté Par Texte

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Édition Contextuelle : Génération Et Édition d'images Pilotées Par Commandes

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Ovis-Image : Modèle De Génération d'images De Haute Qualité

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

Tencent HunyuanVideo-Foley

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

LongCat-Image-Edit-Interface : Un Système D’édition D’images Bilingue Piloté Par Texte

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Ovis-Image : Modèle De Génération d'images De Haute Qualité

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

Tencent HunyuanVideo-Foley

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

LongCat-Image-Edit-Interface : Un Système D’édition D’images Bilingue Piloté Par Texte

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Ovis-Image : Modèle De Génération d'images De Haute Qualité

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

Tencent HunyuanVideo-Foley

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

LongCat-Image-Edit-Interface : Un Système D’édition D’images Bilingue Piloté Par Texte