1. Introduction au tutoriel

Le projet PixelFlow est un modèle de génération d'images IA publié par l'équipe Adobe de l'Université de Hong Kong en avril 2025. Il s'agit d'une série de modèles de génération d'images qui fonctionnent directement dans l'espace pixel d'origine, en contraste frappant avec les principaux modèles d'espace latent. Les résultats pertinents de l'article sontPixelFlow : modèles génératifs d'espace pixel avec Flow".

Cette approche simplifie le processus de génération d’images en éliminant le besoin d’un autoencodeur variationnel pré-entraîné (VAE) et en rendant l’ensemble du modèle entraînable de bout en bout. Grâce à une modélisation efficace des flux en cascade, PixelFlow atteint un coût de calcul abordable dans l'espace pixel. Il atteint un FID de 1,98 sur le benchmark de génération d'images conditionnelles de classe ImageNet 256 × 256. Les résultats qualitatifs de la conversion texte-image montrent que PixelFlow est performant en termes de qualité d'image, de qualité artistique et de contrôle sémantique. Nous espérons que ce nouveau paradigme inspirera et ouvrira de nouvelles opportunités pour la prochaine génération de modèles de vision générative.

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

👉 Ce projet fournit un modèle de :

classe-à-image : Il atteint un FID de 1,98 sur le benchmark de génération d'images conditionnelles de classe ImageNet 256 × 256.

Exemples de projets

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

❗️Conseils d’utilisation importants :

Classe ImageNet-1k : Les images générées ne peuvent sélectionner que les catégories indiquées dans la liste déroulante et ne peuvent pas être personnalisées.
Dopri5 ODE : Il s'agit d'un solveur ODE adaptatif de taille de pas du 5ème ordre Dormand-Prince et il est activé lorsqu'une génération de haute qualité est requise (par exemple, la génération d'images haute définition).
Décalage du bruit : Contrôle le décalage du bruit dans le processus de génération. Une valeur plus élevée augmentera l’intensité du bruit, rendant les résultats générés plus aléatoires et diversifiés. Une valeur plus petite réduira l'interférence du bruit, rendant les résultats générés plus proches de la distribution des données d'entraînement (plus conservateurs).
Échelle de guidage sans classificateur : Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
Étapes d'inférence numérique [étape 0] : Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul. [étape 0] indique l'image générée. Le numéro après plus 1 indique le numéro du chapitre. Il y a quatre images au total.
Graine: Il s'agit de la graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.

Comment utiliser

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github xxxjjjyyy1 Pour la réalisation de ce tutoriel, les informations de référence du projet sont les suivantes :

@article{chen2025pixelflow,
  title={PixelFlow: Pixel-Space Generative Models with Flow},
  author={Chen, Shoufa and Ge, Chongjian and Zhang, Shilong and Sun, Peize and Luo, Ping},
  journal={arXiv preprint arXiv:2504.07963},
  year={2025}
}