IconQA : Un nouveau benchmark pour la compréhension de diagrammes abstraits et le raisonnement visuel-linguistique

Les tâches actuelles de réponse aux questions visuelles (VQA) considèrent principalement la réponse à des questions annotées par des humains pour des images naturelles. Cependant, en dehors des images naturelles, les diagrammes abstraits riches en sémantique restent sous-étudiés dans les recherches sur la compréhension et le raisonnement visuels. Dans ce travail, nous introduisons un nouveau défi de réponse aux questions sur les icônes (IconQA) avec l'objectif de répondre à une question dans le contexte d'une image d'icône. Nous publions IconQA, un jeu de données à grande échelle composé de 107 439 questions et divisé en trois sous-tâches : choix multiple d'images, choix multiple de texte et complétion de phrases. Le jeu de données IconQA est inspiré par des problèmes réels liés aux mots et aux diagrammes qui soulignent l'importance de la compréhension des diagrammes abstraits et du raisonnement cognitif global. Ainsi, IconQA nécessite non seulement des compétences perceptives telles que la reconnaissance d'objets et la compréhension du texte, mais aussi diverses compétences en raisonnement cognitif, comme le raisonnement géométrique, le raisonnement basé sur le sens commun et le raisonnement arithmétique. Pour faciliter l'apprentissage de représentations sémantiques pour les images d'icônes par les modèles potentiels d'IconQA, nous publions également un jeu de données d'icônes Icon645 contenant 645 687 icônes colorées réparties en 377 classes. Nous menons des études utilisateur approfondies et des expériences aveugles, et reproduisons une large gamme de méthodes avancées VQA pour établir une référence pour la tâche IconQA. De plus, nous développons une ligne de base solide pour IconQA appelée Patch-TRM qui utilise un Transformers intermodaux pyramidal avec des plongements (embeddings) diagnostiques pré-entraînés sur le jeu de données d'icônes. Les jeux de données IconQA et Icon645 sont disponibles à l'adresse https://iconqa.github.io.