HyperAIHyperAI

Command Palette

Search for a command to run...

ReCo : Génération d'images contrôlée par région

Résumé

Récemment, les modèles de génération d'images à partir de texte (T2I) à grande échelle ont montré des performances impressionnantes dans la création d'images de haute fidélité, mais avec une contrôlabilité limitée, par exemple, en spécifiant précisément le contenu dans une région particulière à l'aide d'une description textuelle libre. Dans cet article, nous proposons une technique efficace pour un tel contrôle régional dans la génération T2I. Nous enrichissons les entrées des modèles T2I avec un ensemble supplémentaire de jetons de position, qui représentent les coordonnées spatiales quantifiées. Chaque région est définie par quatre jetons de position pour représenter les coins supérieur gauche et inférieur droit, suivis d'une description régionale en langage naturel sans limite. Ensuite, nous affinons un modèle T2I pré-entraîné avec cette nouvelle interface d'entrée. Notre modèle, baptisé ReCo (Region-Controlled T2I), permet le contrôle régional pour des objets arbitraires décrits par des textes régionaux libres plutôt que par des étiquettes d'objets issues d'un ensemble de catégories restreintes. Expérimentalement, ReCo atteint une meilleure qualité d'image que le modèle T2I renforcé par des mots positionnels (FID : 8,82 -> 7,36, SceneFID : 15,54 -> 6,51 sur COCO), tout en plaçant les objets plus précisément, ce qui se traduit par une amélioration de 20,40 % de la précision de classification régionale sur COCO. De plus, nous démontrons que ReCo peut mieux contrôler le nombre d'objets, les relations spatiales et les attributs régionaux tels que la couleur/taille grâce à la description régionale libre. Une évaluation humaine sur PaintSkill montre que ReCo est 19,28 % et 17,21 % plus précis dans la génération d'images avec un nombre correct d'objets et des relations spatiales appropriées comparativement au modèle T2I.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp