HyperAIHyperAI

Command Palette

Search for a command to run...

Démonstration Du Modèle De Graphique De Texte De Correspondance De Flux Flow-GRPO

Date

il y a 7 mois

Size

1.88 GB

License

MIT

Paper URL

2505.05470

1. Introduction au tutoriel

Construire

Flow-GRPO est un modèle de correspondance de flux lancé le 13 mai 2025 par le Laboratoire multimédia de l'Université chinoise de Hong Kong, l'Université Tsinghua et l'équipe de Kuaishou Keling. Ce modèle intègre de manière novatrice un cadre d'apprentissage par renforcement en ligne à la théorie de la correspondance de flux, réalisant une avancée majeure sur le benchmark GenEval 2025 : la précision de génération combinée du modèle SD 3.5 Medium est passée de 63% à 95%, et la métrique d'évaluation de la qualité de génération a surpassé celle de GPT-4o pour la première fois. Des articles de recherche associés sont disponibles. Flow-GRPO : formation de modèles de correspondance de flux via RL en ligne .

Ce didacticiel utilise une seule carte RTX 4090 comme ressource et les invites de génération d'image ne prennent en charge que l'anglais.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Comment utiliser

Description des paramètres :

  • Modèle LoRA :
    1. Aucun:  Le modèle de base est appelé nativement et aucune stratégie d'optimisation n'est introduite.
    2. GenEval :  Un système d’évaluation à six dimensions est construit pour prendre en charge la génération et la vérification de scénarios complexes.
    3. Rendu de texte :  La visualisation précise du texte permet une cartographie précise du contenu graphique et textuel.
    4. Alignement des préférences humaines :  Alignement quantitatif des préférences esthétiques et cadre d'évaluation PickScore intégré
  • Graines de départ :  Graine de nombre aléatoire, utilisée pour contrôler le caractère aléatoire du processus de génération. La même valeur Seed peut produire les mêmes résultats (à condition que les autres paramètres soient les mêmes), ce qui est très important pour reproduire les résultats.
  • Largeur:  Utilisé pour contrôler la largeur de l'image générée.
  • Hauteur:  Utilisé pour contrôler la hauteur de l'image générée.
  • Échelle d'orientation :  Il est utilisé pour contrôler le degré auquel les entrées conditionnelles (telles que le texte ou les images) dans les modèles génératifs affectent les résultats générés. Des valeurs de guidage plus élevées permettront aux résultats générés de correspondre plus étroitement aux conditions d'entrée, tandis que des valeurs plus faibles conserveront plus de caractère aléatoire.
  • Nombre d'étapes d'inférence :  Représente le nombre d'itérations du modèle ou le nombre d'étapes du processus d'inférence, représentant le nombre d'étapes d'optimisation que le modèle utilise pour générer le résultat. Un nombre plus élevé d’étapes produit généralement des résultats plus précis, mais peut augmenter le temps de calcul.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github xxxjjjyyy1  Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@misc{liu2025flowgrpo,
      title={Flow-GRPO: Training Flow Matching Models via Online RL}, 
      author={Jie Liu and Gongye Liu and Jiajun Liang and Yangguang Li and Jiaheng Liu and Xintao Wang and Pengfei Wan and Di Zhang and Wanli Ouyang},
      year={2025},
      eprint={2505.05470},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.05470}, 
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp