HyperAI

Démonstration Du Modèle De Graphique De Texte De Correspondance De Flux Flow-GRPO

1. Introduction au tutoriel

Construire

Flow-GRPO est un modèle de correspondance de flux lancé par le Laboratoire multimédia de l'Université chinoise de Hong Kong, l'Université Tsinghua et l'équipe de Kuaishou Keling le 13 mai 2025. Ce modèle a été le pionnier de l'intégration du cadre d'apprentissage par renforcement en ligne et de la théorie de la correspondance de flux, et a réalisé des progrès décisifs lors du test de référence GenEval 2025 : la précision de génération combinée du modèle SD 3.5 Medium est passée de la valeur de référence de 63% à 95%, et l'indice d'évaluation de la qualité de génération a dépassé pour la première fois le GPT-4o. Les résultats de l'article sont les suivants :Flow-GRPO : formation de modèles de correspondance de flux via RL en ligne".

Ce didacticiel utilise une seule carte RTX 4090 comme ressource et les invites de génération d'image ne prennent en charge que l'anglais.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Comment utiliser

Description des paramètres :

  • Modèle LoRA :
    1. Aucun:  Le modèle de base est appelé nativement et aucune stratégie d'optimisation n'est introduite.
    2. GenEval :  Un système d’évaluation à six dimensions est construit pour prendre en charge la génération et la vérification de scénarios complexes.
    3. Rendu de texte :  La visualisation précise du texte permet une cartographie précise du contenu graphique et textuel.
    4. Alignement des préférences humaines :  Alignement quantitatif des préférences esthétiques et cadre d'évaluation PickScore intégré
  • Graines de départ :  Graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.
  • Largeur:  Utilisé pour contrôler la largeur de l'image générée.
  • Hauteur:  Utilisé pour contrôler la hauteur de l'image générée.
  • Échelle d'orientation :  Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
  • Nombre d'étapes d'inférence :  Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github xxxjjjyyy1  Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@misc{liu2025flowgrpo,
      title={Flow-GRPO: Training Flow Matching Models via Online RL}, 
      author={Jie Liu and Gongye Liu and Jiajun Liang and Yangguang Li and Jiaheng Liu and Xintao Wang and Pengfei Wan and Di Zhang and Wanli Ouyang},
      year={2025},
      eprint={2505.05470},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.05470}, 
}