Command Palette
Search for a command to run...
Peindre plus facile que penser : les modèles texte-image peuvent-ils préparer la scène, mais pas diriger le spectacle ?
Ouxiang Li Yuan Wang Xinting Hu Huijuan Huang et al

Résumé
La génération d’images à partir de textes (T2I) vise à produire des images à partir de prompts textuels, qui spécifient conjointement ce qui doit être représenté et suggèrent ce qui peut être inféré, correspondant ainsi à deux capacités fondamentales : la composition et le raisonnement. Toutefois, avec les progrès récents des modèles T2I dans le raisonnement au-delà de la simple composition, les benchmarks existants révèlent des limites évidentes dans leur capacité à évaluer de manière exhaustive ces deux dimensions, tant au sein qu’entre elles. Par ailleurs, ces avancées permettent aux modèles de traiter des prompts plus complexes, alors que les benchmarks actuels restent cantonnés à des scènes à faible densité et à des raisonnements simples à un seul niveau. Pour remédier à ces limites, nous proposons T2I-CoReBench, un benchmark complet et complexe évaluant à la fois les capacités de composition et de raisonnement des modèles T2I. Pour assurer une couverture exhaustive, nous structurons la composition autour des éléments du graphe de scène (entités, attributs et relations), et le raisonnement autour du cadre philosophique de l’inférence (déductive, inductive et abductive), établissant ainsi une taxonomie d’évaluation à 12 dimensions. Pour augmenter la complexité, inspirés par les enjeux inhérents aux scénarios du monde réel, nous concevons chaque prompt avec une haute densité de composition pour évaluer la capacité de composition, et une inférence en plusieurs étapes pour évaluer celle de raisonnement. Nous associons également à chaque prompt une liste de vérification (checklist) comprenant des questions oui/non individuelles, permettant d’évaluer de manière fine et fiable chaque élément attendu. Statistiquement, notre benchmark comprend 1 080 prompts exigeants et environ 13 500 questions de vérification. Des expérimentations menées sur 27 modèles T2I actuels révèlent que leurs capacités de composition restent limitées dans des scènes complexes à haute densité, tandis que leurs capacités de raisonnement sont encore plus en retard, constituant un goulot d’étranglement critique, tous les modèles peinant à inférer les éléments implicites à partir des prompts. Page de projet : this https URL.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.