HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 5 jours

TwinFlow : Réalisation d'une génération en une seule étape sur les grands modèles grâce aux flux auto-adverses

Zhenglin Cheng Peng Sun Jianguo Li Tao Lin

TwinFlow : Réalisation d'une génération en une seule étape sur les grands modèles grâce aux flux auto-adverses

Résumé

Les avancées récentes dans les grands modèles générateurs multimodaux ont démontré des capacités impressionnantes en génération multimodale, notamment en génération d’images et de vidéos. Ces modèles s’appuient généralement sur des cadres à plusieurs étapes, tels que la diffusion ou l’ajustement de flux, ce qui limite intrinsèquement leur efficacité d’inférence (nécessitant entre 40 et 100 évaluations de fonction, NFE). Bien que diverses méthodes à peu d’étapes visent à accélérer l’inférence, les solutions existantes présentent des limites claires. Les méthodes basées sur la distillation, telles que la distillation progressive ou la distillation de cohérence, nécessitent soit une procédure itérative de distillation, soit subissent une dégradation significative à très peu d’étapes (< 4-NFE). D’autre part, l’intégration de l’entraînement adversarial dans la distillation (par exemple, DMD/DMD2 et SANA-Sprint) pour améliorer les performances introduit une instabilité d’entraînement, une complexité accrue et une surcharge mémoire GPU importante due aux modèles auxiliaires entraînés. À cet égard, nous proposons TwinFlow, un cadre simple mais efficace pour l’entraînement de modèles générateurs à 1 étape, qui élimine la nécessité de modèles enseignants préentraînés fixes et évite l’utilisation de réseaux adversariaux classiques pendant l’entraînement, le rendant ainsi idéal pour le développement de modèles à grande échelle et efficaces. Sur des tâches de génération d’image à partir de texte, notre méthode atteint un score GenEval de 0,83 en 1-NFE, surpassant des baselines performantes telles que SANA-Sprint (cadre basé sur une perte GAN) et RCGM (cadre basé sur la cohérence). Notamment, nous démontrons la scalabilité de TwinFlow grâce à un entraînement complet des paramètres sur Qwen-Image-20B, transformant ainsi le modèle en un générateur efficace à peu d’étapes. Avec seulement 1-NFE, notre approche égale la performance du modèle original à 100-NFE sur les benchmarks GenEval et DPG-Bench, tout en réduisant le coût computationnel de 100 fois avec une dégradation de qualité négligeable. La page du projet est disponible à l’adresse suivante : https://zhenglin-cheng.com/twinflow.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TwinFlow : Réalisation d'une génération en une seule étape sur les grands modèles grâce aux flux auto-adverses | Articles de recherche | HyperAI