Command Palette
Search for a command to run...
UniREditBench : Un benchmark d'édition d'images fondé sur le raisonnement unifié

Résumé
Les progrès récents des modèles génératifs multimodaux ont permis des améliorations substantielles dans le traitement d’image. Toutefois, les modèles génératifs actuels peinent encore à gérer des tâches complexes et variées d’édition d’image exigeant un raisonnement implicite, mettant ainsi en évidence la nécessité d’un benchmark complet permettant d’évaluer de manière systématique leurs performances dans diverses scénarios de raisonnement. Les benchmarks existants se concentrent principalement sur la transformation d’attributs d’un seul objet dans des scénarios réalistes, ce qui, bien que pertinent, soulève deux défis majeurs : (1) ils négligent largement les interactions entre plusieurs objets, ainsi que les scénarios de monde de jeu reposant sur des règles définies par l’humain, fréquents dans les applications réelles ; (2) ils s’appuient uniquement sur des références textuelles pour évaluer les images générées, ce qui peut entraîner des évaluations systématiquement erronées, en particulier dans des scénarios complexes de raisonnement. À cet effet, ce travail propose UniREditBench, un benchmark unifié pour l’évaluation de l’édition d’image fondée sur le raisonnement. Il comprend 2 700 échantillons soigneusement sélectionnés, couvrant à la fois des scénarios du monde réel et des mondes de jeu, répartis sur 8 dimensions principales et 18 sous-dimensions. Pour améliorer la fiabilité de l’évaluation, nous introduisons une méthode d’évaluation à double référence multimodale, offrant à chaque échantillon à la fois une référence textuelle et une référence image de vérité terrain. En outre, nous avons conçu un pipeline automatisé de synthèse de données multi-scénarios, et construit UniREdit-Data-100K, un grand ensemble de données synthétiques doté d’annotations de haute qualité sur la chaîne de raisonnement (chain-of-thought, CoT). Nous avons finement ajusté le modèle Bagel sur cet ensemble de données, et développé UniREdit-Bagel, qui montre des améliorations significatives, tant dans des conditions d’entraînement (in-domain) que dans des conditions de généralisation (out-of-distribution). Grâce à une évaluation approfondie de modèles d’édition d’image open-source et closed-source, nous mettons en évidence leurs forces et faiblesses selon divers critères.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.