HyperAIHyperAI
il y a 18 jours

ArtQuest : Lutter contre les biais linguistiques cachés dans l’ArtVQA

{Gerard de Melo, Sedigheh Eslami, Tibor Bleidt}
ArtQuest : Lutter contre les biais linguistiques cachés dans l’ArtVQA
Résumé

La tâche de réponse aux questions visuelles (Visual Question Answering, VQA) a été largement étudiée sur des images réelles du monde réel appartenant à des domaines généraux. Le transfert des connaissances issues de la VQA sur domaine général vers le domaine artistique (ArtVQA) s’avère non trivial, car ce dernier exige que les modèles soient capables d’identifier des concepts abstraits, les détails des traits de pinceau et les styles des peintures dans les données visuelles, tout en possédant des connaissances contextuelles sur l’art. Ce défi est encore aggravé par le manque de jeux de données de haute qualité. Dans ce travail, nous mettons en lumière des biais linguistiques cachés présents dans le jeu de données AQUA, qui constitue le seul benchmark publique disponible pour l’ArtVQA. En conséquence, la majorité des questions peuvent être répondues sans consulter l’information visuelle, rendant ainsi le « V » dans ArtVQA largement insignifiant. Afin de pallier ce problème, nous proposons un nouveau jeu de données simple mais pratique, nommé ArtQuest, construit à partir d’informations structurées provenant de la collection SemArt. Notre jeu de données ainsi que le pipeline permettant de reproduire nos résultats sont disponibles publiquement à l’adresse suivante : https://github.com/bletib/artquest.