Command Palette
Search for a command to run...
FigureQA : un jeu de données annoté de figures pour le raisonnement visuel
FigureQA : un jeu de données annoté de figures pour le raisonnement visuel
Résumé
Nous introduisons FigureQA, un corpus de raisonnement visuel comprenant plus d’un million de paires question-réponse fondées sur plus de 100 000 images. Ces images sont des figures synthétiques de style scientifique appartenant à cinq catégories : diagrammes linéaires, diagrammes à points et lignes, graphiques à barres verticales et horizontales, ainsi que diagrammes circulaires. Nous formulons notre tâche de raisonnement en générant des questions à partir de 15 modèles préétablis ; ces questions portent sur diverses relations entre les éléments du graphique et examinent des caractéristiques telles que la valeur maximale, la valeur minimale, l’aire sous la courbe, la régularité (lissité) et les points d’intersection. Pour répondre à ces questions, il est souvent nécessaire de faire référence à plusieurs éléments du graphique et de synthétiser des informations réparties spatialement à travers l’image. Afin de faciliter l’entraînement des systèmes d’apprentissage automatique, le corpus inclut également des données auxiliaires pouvant servir à définir des objectifs supplémentaires. En particulier, nous fournissons les données numériques utilisées pour générer chaque figure, ainsi que des annotations de boîtes englobantes pour tous les éléments du graphique. Nous évaluons la tâche de raisonnement visuel proposée en entraînant plusieurs modèles, dont le Réseau de Relations (Relation Network), récemment proposé, utilisé comme référence robuste. Les résultats préliminaires indiquent que cette tâche représente un défi important pour les systèmes d’apprentissage automatique. Nous considérons FigureQA comme une première étape vers le développement de modèles capables de reconnaître intuitivement des motifs à partir de représentations visuelles de données.