Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Taille

1.88 GB

Balises

Génération D'images

Texte Vers Image

Licence

MIT

GitHub

yifan123/flow_grpo

URL du document

2505.05470

1. Introduction au tutoriel

Flow-GRPO est un modèle de correspondance de flux lancé le 13 mai 2025 par le Laboratoire multimédia de l'Université chinoise de Hong Kong, l'Université Tsinghua et l'équipe de Kuaishou Keling. Ce modèle intègre de manière novatrice un cadre d'apprentissage par renforcement en ligne à la théorie de la correspondance de flux, réalisant une avancée majeure sur le benchmark GenEval 2025 : la précision de génération combinée du modèle SD 3.5 Medium est passée de 63% à 95%, et la métrique d'évaluation de la qualité de génération a surpassé celle de GPT-4o pour la première fois. Des articles de recherche associés sont disponibles. Flow-GRPO : formation de modèles de correspondance de flux via RL en ligne .

Ce didacticiel utilise une seule carte RTX 4090 comme ressource et les invites de génération d'image ne prennent en charge que l'anglais.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Comment utiliser

Description des paramètres :

Modèle LoRA :
1. Aucun: Le modèle de base est appelé nativement et aucune stratégie d'optimisation n'est introduite.
2. GenEval : Un système d’évaluation à six dimensions est construit pour prendre en charge la génération et la vérification de scénarios complexes.
3. Rendu de texte : La visualisation précise du texte permet une cartographie précise du contenu graphique et textuel.
4. Alignement des préférences humaines : Alignement quantitatif des préférences esthétiques et cadre d'évaluation PickScore intégré
Graines de départ : Graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.
Largeur: Utilisé pour contrôler la largeur de l'image générée.
Hauteur: Utilisé pour contrôler la hauteur de l'image générée.
Échelle d'orientation : Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
Nombre d'étapes d'inférence : Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github xxxjjjyyy1 Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@misc{liu2025flowgrpo,
      title={Flow-GRPO: Training Flow Matching Models via Online RL}, 
      author={Jie Liu and Gongye Liu and Jiajun Liang and Yangguang Li and Jiaheng Liu and Xintao Wang and Pengfei Wan and Di Zhang and Wanli Ouyang},
      year={2025},
      eprint={2505.05470},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.05470}, 
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

MonkeyOCR : Analyse De Documents Basée Sur Le Triple Paradigme structure-reconnaissance-relation

il y a 3 mois

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

il y a 2 mois

PaddleOCR-VL : Analyse De Documents Multimodaux

il y a 3 mois

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

il y a 3 mois

Agent De Diagnostic DiagGym

il y a 17 jours

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Taille

1.88 GB

Balises

Génération D'images

Texte Vers Image

Licence

MIT

GitHub

yifan123/flow_grpo

URL du document

2505.05470

1. Introduction au tutoriel

Ce didacticiel utilise une seule carte RTX 4090 comme ressource et les invites de génération d'image ne prennent en charge que l'anglais.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Comment utiliser

Description des paramètres :

Modèle LoRA :
1. Aucun: Le modèle de base est appelé nativement et aucune stratégie d'optimisation n'est introduite.
2. GenEval : Un système d’évaluation à six dimensions est construit pour prendre en charge la génération et la vérification de scénarios complexes.
3. Rendu de texte : La visualisation précise du texte permet une cartographie précise du contenu graphique et textuel.
4. Alignement des préférences humaines : Alignement quantitatif des préférences esthétiques et cadre d'évaluation PickScore intégré
Graines de départ : Graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.
Largeur: Utilisé pour contrôler la largeur de l'image générée.
Hauteur: Utilisé pour contrôler la hauteur de l'image générée.
Échelle d'orientation : Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
Nombre d'étapes d'inférence : Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul.

4. Discussion