HyperAIHyperAI
il y a 10 jours

Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour améliorer la génération d'images

Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, et al
Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour améliorer la génération d'images
Résumé

Récemment, GPT-4o a suscité un vif intérêt en raison de ses performances remarquables dans la génération d’images, tandis que les modèles à code source ouvert restent encore en retard. Plusieurs études se sont penchées sur la distillation de données d’images issues de GPT-4o afin d’améliorer les modèles open-source, obtenant des progrès notables. Toutefois, une question clé demeure : étant donné que les jeux de données d’images du monde réel constituent déjà une source naturelle de données de haute qualité, pourquoi recourir à des données synthétiques générées par GPT-4o ? Dans ce travail, nous identifions deux avantages majeurs des images synthétiques. Premièrement, elles permettent de compléter les scénarios rares présents dans les jeux de données du monde réel, tels que les scènes surréalistes ou la génération d’images à plusieurs références, qui apparaissent fréquemment dans les requêtes des utilisateurs. Deuxièmement, elles offrent une supervision propre et contrôlable. Les données du monde réel sont souvent entachées de bruit de fond complexe et présentent une incohérence intrinsèque entre les descriptions textuelles et le contenu visuel, tandis que les images synthétiques disposent de fonds purs et fournissent des signaux de supervision à distribution longue-taillée, ce qui facilite une meilleure alignement texte-image. Partant de ces constatations, nous introduisons Echo-4o-Image, un jeu de données synthétique de 180 000 exemples généré par GPT-4o, exploitant le potentiel des données d’images synthétiques pour combler les lacunes de couverture des données du monde réel. À l’aide de ce jeu de données, nous fine-tunons le modèle de base de génération multimodale unifié Bagel afin d’obtenir Echo-4o. Par ailleurs, nous proposons deux nouveaux benchmarks d’évaluation permettant une évaluation plus précise et plus exigeante des capacités de génération d’images : GenEval++, qui augmente la complexité des instructions afin de réduire le phénomène de saturation des scores, et Imagine-Bench, qui se concentre sur l’évaluation à la fois de la compréhension et de la génération de contenus imaginatifs. Echo-4o montre des performances solides sur les benchmarks standards. En outre, l’application d’Echo-4o-Image à d’autres modèles fondamentaux (par exemple, OmniGen2, BLIP3-o) entraîne des gains de performance constants sur plusieurs métriques, mettant ainsi en évidence la forte transférabilité de ce jeu de données.