Ce que vous voyez, c’est ce que vous lisez ? Amélioration de l’évaluation de l’alignement texte-image

Déterminer automatiquement si un texte et une image correspondante sont sémantiquement alignés constitue un défi majeur pour les modèles vision-langage, avec des applications dans les tâches génératives de texte vers image et d’image vers texte. Dans ce travail, nous étudions des méthodes d’évaluation automatique de l’alignement texte-image. Nous introduisons tout d’abord SeeTRUE : un ensemble d’évaluation complet, couvrant plusieurs jeux de données issus à la fois des tâches de génération texte-vers-image et image-vers-texte, accompagné d’évaluations humaines indiquant si un couple texte-image donné est sémantiquement aligné. Nous décrivons ensuite deux méthodes automatiques pour évaluer cet alignement : la première repose sur une chaîne de traitement basée sur la génération de questions et des modèles de réponse à questions visuelles ; la seconde utilise une approche de classification end-to-end obtenue par fine-tuning de modèles pré-entraînés multimodaux. Ces deux méthodes surpassent les approches antérieures sur diverses tâches d’alignement texte-image, avec des améliorations significatives dans des cas particulièrement difficiles impliquant des compositions complexes ou des images anormales. Enfin, nous montrons comment nos approches permettent d’identifier localement les désalignements spécifiques entre une image et un texte donné, et comment elles peuvent être utilisées pour réordonner automatiquement les candidats dans les tâches de génération texte-vers-image.