Précision sémantique des objets pour la synthèse textuelle générative d'images

Les réseaux antagonistes génératifs conditionnés par des descriptions textuelles d’images sont capables de générer des images aux apparences réalistes. Toutefois, les méthodes actuelles peinent encore à produire des images à partir de légendes d’images complexes issues de domaines hétérogènes. En outre, l’évaluation quantitative de ces modèles textes-vers-images reste difficile, car la plupart des métriques d’évaluation ne mesurent que la qualité visuelle de l’image, sans tenir compte de la conformité entre l’image générée et sa légende associée. Pour relever ces défis, nous introduisons un nouveau modèle qui modélise explicitement les objets individuels présents dans une image, ainsi qu’une nouvelle métrique d’évaluation appelée précision sémantique des objets (Semantic Object Accuracy, SOA), spécifiquement conçue pour évaluer la pertinence d’une image générée par rapport à une légende d’image. La SOA utilise un détecteur d’objets pré-entraîné afin de vérifier si les objets mentionnés dans la légende sont présents dans l’image générée — par exemple, si une image générée à partir de la phrase « une voiture roulant dans la rue » contient effectivement une voiture. Nous menons une étude utilisateurs comparant plusieurs modèles textes-vers-images et montrons que la métrique SOA classe les modèles de la même manière que les humains, contrairement à d’autres métriques telles que le Inception Score. Nos résultats d’évaluation montrent également que les modèles qui modélisent explicitement les objets surpassent significativement ceux qui ne modélisent que les caractéristiques globales de l’image.