HyperAIHyperAI
il y a 2 mois

ReCo : Génération d'images contrôlée par région

Yang, Zhengyuan ; Wang, Jianfeng ; Gan, Zhe ; Li, Linjie ; Lin, Kevin ; Wu, Chenfei ; Duan, Nan ; Liu, Zicheng ; Liu, Ce ; Zeng, Michael ; Wang, Lijuan
ReCo : Génération d'images contrôlée par région
Résumé

Récemment, les modèles de génération d'images à partir de texte (T2I) à grande échelle ont montré des performances impressionnantes dans la création d'images de haute fidélité, mais avec une contrôlabilité limitée, par exemple, en spécifiant précisément le contenu dans une région particulière à l'aide d'une description textuelle libre. Dans cet article, nous proposons une technique efficace pour un tel contrôle régional dans la génération T2I. Nous enrichissons les entrées des modèles T2I avec un ensemble supplémentaire de jetons de position, qui représentent les coordonnées spatiales quantifiées. Chaque région est définie par quatre jetons de position pour représenter les coins supérieur gauche et inférieur droit, suivis d'une description régionale en langage naturel sans limite. Ensuite, nous affinons un modèle T2I pré-entraîné avec cette nouvelle interface d'entrée. Notre modèle, baptisé ReCo (Region-Controlled T2I), permet le contrôle régional pour des objets arbitraires décrits par des textes régionaux libres plutôt que par des étiquettes d'objets issues d'un ensemble de catégories restreintes. Expérimentalement, ReCo atteint une meilleure qualité d'image que le modèle T2I renforcé par des mots positionnels (FID : 8,82 -> 7,36, SceneFID : 15,54 -> 6,51 sur COCO), tout en plaçant les objets plus précisément, ce qui se traduit par une amélioration de 20,40 % de la précision de classification régionale sur COCO. De plus, nous démontrons que ReCo peut mieux contrôler le nombre d'objets, les relations spatiales et les attributs régionaux tels que la couleur/taille grâce à la description régionale libre. Une évaluation humaine sur PaintSkill montre que ReCo est 19,28 % et 17,21 % plus précis dans la génération d'images avec un nombre correct d'objets et des relations spatiales appropriées comparativement au modèle T2I.

ReCo : Génération d'images contrôlée par région | Articles de recherche récents | HyperAI