Command Palette
Search for a command to run...
EditScore : Déverrouiller le renforcement par apprentissage en ligne pour l'édition d'images grâce à une modélisation de récompense à haute fidélité
Xin Luo Jiahao Wang Chenyuan Wu Shitao Xiao Xiyan Jiang Defu Lian Jiajun Zhang Dong Liu Zheng Liu

Résumé
L’édition d’images guidée par instruction a connu des progrès remarquables, mais les modèles actuels continuent de faire face à des défis lorsqu’ils sont confrontés à des instructions complexes et nécessitent souvent plusieurs échantillons pour produire un résultat satisfaisant. L’apprentissage par renforcement (RL) offre une solution prometteuse, mais son adoption dans le domaine de l’édition d’images a été sévèrement freinée par l’absence d’un signal de récompense de haute fidélité et efficace. Dans ce travail, nous proposons une méthodologie complète visant à surmonter cette barrière, centrée sur le développement d’un modèle de récompense de pointe, spécifiquement conçu pour ce domaine. Nous introduisons d’abord EditReward-Bench, un benchmark complet permettant d’évaluer de manière systématique la qualité des modèles de récompense en matière d’édition d’images. À partir de ce benchmark, nous développons EditScore, une série de modèles de récompense (de 7B à 72B de paramètres) destinés à évaluer la qualité de l’édition d’images guidée par instruction. Grâce à une curation et un filtrage rigoureux des données, EditScore parvient à égaler la performance des modèles VLM propriétaires appris sur des données exclusives. De plus, combiné à une stratégie d’auto-ensemblage efficace, spécifiquement conçue pour la nature générative d’EditScore, notre variant le plus grand dépasse même les performances de GPT-5 sur le benchmark. Nous démontrons ensuite qu’un modèle de récompense de haute fidélité est la clé pour libérer le potentiel de l’apprentissage par renforcement en ligne dans l’édition d’images. Nos expériences montrent que, même les plus grands modèles VLM open-source échouent à fournir un signal d’apprentissage efficace, tandis qu’EditScore permet une optimisation de politique à la fois efficace et robuste. L’application de notre cadre à un modèle de base performant, OmniGen2, donne lieu à un modèle final présentant une amélioration significative et constante des performances. Globalement, ce travail établit la première voie systématique, du benchmarking à la modélisation de récompense, puis à l’entraînement par renforcement, dans le domaine de l’édition d’images, en démontrant qu’un modèle de récompense de haute fidélité et spécialisé dans le domaine est la clé pour libérer tout le potentiel de l’apprentissage par renforcement dans ce contexte.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.