Exécuter ce Notebook Discuter sur Discord

Date

il y a un an

Organisation

Balises

Classification D'images

Génération D'images

RTX 5090

URL du document

2504.07963

Licence

其他

GitHub

ShoufaChen/PixelFlow315

1. Introduction au tutoriel

Le projet PixelFlow, lancé en avril 2025 par l'équipe Adobe de l'Université de Hong Kong, est une série de modèles de génération d'images par IA qui opèrent directement dans l'espace pixel d'origine, contrairement aux principaux modèles d'espace latent. Articles connexes : PixelFlow : modèles génératifs d'espace pixel avec Flow .

Cette approche simplifie le processus de génération d’images en éliminant le besoin d’un autoencodeur variationnel pré-entraîné (VAE) et en rendant l’ensemble du modèle entraînable de bout en bout. Grâce à une modélisation efficace des flux en cascade, PixelFlow atteint un coût de calcul abordable dans l'espace pixel. Il atteint un FID de 1,98 sur le benchmark de génération d'images conditionnelles de classe ImageNet 256 × 256. Les résultats qualitatifs de la conversion texte-image montrent que PixelFlow est performant en termes de qualité d'image, de qualité artistique et de contrôle sémantique. Nous espérons que ce nouveau paradigme inspirera et ouvrira de nouvelles opportunités pour la prochaine génération de modèles de vision générative.

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

👉 Ce projet fournit un modèle de :

classe-à-image : Il atteint un FID de 1,98 sur le benchmark de génération d'images conditionnelles de classe ImageNet 256 × 256.

Exemples de projets

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

❗️Conseils d’utilisation importants :

Classe ImageNet-1k : Les images générées ne peuvent sélectionner que les catégories indiquées dans la liste déroulante et ne peuvent pas être personnalisées.
Dopri5 ODE : Il s'agit d'un solveur ODE adaptatif de taille de pas du 5ème ordre Dormand-Prince et il est activé lorsqu'une génération de haute qualité est requise (par exemple, la génération d'images haute définition).
Décalage du bruit : Contrôle le décalage du bruit dans le processus de génération. Une valeur plus élevée augmentera l’intensité du bruit, rendant les résultats générés plus aléatoires et diversifiés. Une valeur plus petite réduira l'interférence du bruit, rendant les résultats générés plus proches de la distribution des données d'entraînement (plus conservateurs).
Échelle de guidage sans classificateur : Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
Étapes d'inférence numérique [étape 0] : Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul. [étape 0] indique l'image générée. Le numéro après plus 1 indique le numéro du chapitre. Il y a quatre images au total.
Graine: Il s'agit de la graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.

Comment utiliser

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{chen2025pixelflow,
  title={PixelFlow: Pixel-Space Generative Models with Flow},
  author={Chen, Shoufa and Ge, Chongjian and Zhang, Shilong and Sun, Peize and Luo, Ping},
  journal={arXiv preprint arXiv:2504.07963},
  year={2025}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a un an

Organisation

Balises

Classification D'images

Génération D'images

RTX 5090

URL du document

2504.07963

Licence

其他

GitHub

ShoufaChen/PixelFlow315

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

👉 Ce projet fournit un modèle de :

classe-à-image : Il atteint un FID de 1,98 sur le benchmark de génération d'images conditionnelles de classe ImageNet 256 × 256.

Exemples de projets

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

❗️Conseils d’utilisation importants :

Classe ImageNet-1k : Les images générées ne peuvent sélectionner que les catégories indiquées dans la liste déroulante et ne peuvent pas être personnalisées.
Dopri5 ODE : Il s'agit d'un solveur ODE adaptatif de taille de pas du 5ème ordre Dormand-Prince et il est activé lorsqu'une génération de haute qualité est requise (par exemple, la génération d'images haute définition).
Décalage du bruit : Contrôle le décalage du bruit dans le processus de génération. Une valeur plus élevée augmentera l’intensité du bruit, rendant les résultats générés plus aléatoires et diversifiés. Une valeur plus petite réduira l'interférence du bruit, rendant les résultats générés plus proches de la distribution des données d'entraînement (plus conservateurs).
Échelle de guidage sans classificateur : Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
Étapes d'inférence numérique [étape 0] : Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul. [étape 0] indique l'image générée. Le numéro après plus 1 indique le numéro du chapitre. Il y a quatre images au total.
Graine: Il s'agit de la graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.

Comment utiliser

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{chen2025pixelflow,
  title={PixelFlow: Pixel-Space Generative Models with Flow},
  author={Chen, Shoufa and Ge, Chongjian and Zhang, Shilong and Sun, Peize and Luo, Ping},
  journal={arXiv preprint arXiv:2504.07963},
  year={2025}
}

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

PixelFlow : Une Solution De Génération d'images À l'échelle Des Pixels

1. Introduction au tutoriel

Exemples de projets

2. Étapes de l'opération

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PixelFlow : Une Solution De Génération d'images À l'échelle Des Pixels

1. Introduction au tutoriel

Exemples de projets

2. Étapes de l'opération

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PixelFlow : Une Solution De Génération d'images À l'échelle Des Pixels

1. Introduction au tutoriel

Exemples de projets

2. Étapes de l'opération

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters