HyperAIHyperAI
il y a 4 jours

MultiRef : Génération d'images contrôlable avec plusieurs références visuelles

Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
MultiRef : Génération d'images contrôlable avec plusieurs références visuelles
Résumé

Les concepteurs visuels s’inspirent naturellement de multiples références visuelles, en combinant divers éléments et principes esthétiques pour créer des œuvres d’art. Toutefois, les cadres actuels de génération d’images reposent principalement sur des entrées à source unique — soit des prompts textuels, soit des images de référence individuelles. Dans cet article, nous nous concentrons sur la tâche de génération d’images contrôlables à l’aide de plusieurs références visuelles. Nous introduisons MultiRef-bench, un cadre d’évaluation rigoureux comprenant 990 échantillons synthétiques et 1 000 échantillons du monde réel, nécessitant l’intégration de contenus visuels provenant de plusieurs images de référence. Les échantillons synthétiques sont générés de manière artificielle via notre moteur de données RefBlend, incluant 10 types de références et 33 combinaisons de références. À partir de RefBlend, nous construisons également un jeu de données MultiRef comprenant 38 000 images de haute qualité, afin de faciliter des recherches ultérieures. Nos expériences menées sur trois modèles d’images-textes imbriqués (à savoir OmniGen, ACE et Show-o) et six cadres agencés (par exemple, ChatDiT et LLM + SD) révèlent que même les systèmes les plus avancés éprouvent des difficultés à conditionner efficacement plusieurs références, le meilleur modèle, OmniGen, atteignant seulement 66,6 % en moyenne sur les échantillons synthétiques et 79,0 % sur les cas du monde réel, comparé à la réponse de référence (golden answer). Ces résultats fournissent des orientations précieuses pour le développement d’outils créatifs plus flexibles et plus proches de la créativité humaine, capables d’intégrer efficacement plusieurs sources d’inspiration visuelle. Le jeu de données est disponible publiquement à l’adresse suivante : https://multiref.github.io/.