HyperAIHyperAI
il y a 2 mois

FigureQA : Un jeu de données annoté pour le raisonnement visuel

Kahou, Samira Ebrahimi ; Michalski, Vincent ; Atkinson, Adam ; Kadar, Akos ; Trischler, Adam ; Bengio, Yoshua
FigureQA : Un jeu de données annoté pour le raisonnement visuel
Résumé

Nous présentons FigureQA, un corpus de raisonnement visuel comprenant plus d'un million de paires question-réponse ancrées dans plus de 100 000 images. Les images sont synthétiques et représentent des figures au style scientifique appartenant à cinq classes : graphiques en lignes, graphiques en points et lignes, diagrammes à barres verticaux et horizontaux, ainsi que diagrammes circulaires (pie charts). Nous formulons notre tâche de raisonnement en générant des questions à partir de 15 modèles ; ces questions portent sur diverses relations entre les éléments du graphique et examinent des caractéristiques telles que le maximum, le minimum, la surface sous la courbe, la régularité et l'intersection. La résolution de ces questions nécessite souvent une référence à plusieurs éléments du graphique et une synthèse des informations réparties spatialement dans toute la figure. Pour faciliter l'entraînement des systèmes d'apprentissage automatique, le corpus inclut également des données annexes qui peuvent être utilisées pour formuler des objectifs auxiliaires. En particulier, nous fournissons les données numériques utilisées pour générer chaque figure ainsi que les annotations de boîtes englobantes pour tous les éléments du graphique. Nous étudions la tâche de raisonnement visuel proposée en entraînant plusieurs modèles, dont le réseau relationnel (Relation Network) récemment proposé comme point de référence solide. Les résultats préliminaires indiquent que cette tâche représente un défi significatif pour l'apprentissage automatique. Nous concevons FigureQA comme une première étape vers le développement de modèles capables de reconnaître intuitivement des schémas à partir de représentations visuelles des données.