Ensemble De Données De Réponses Aux Questions D'images DVQA
Date
Taille
URL de publication
Catégories

Cet ensemble de données est un document de recherche du Rochester Institute of Technology et d'Adobe Research DVQA : Comprendre les visualisations de données via les questions-réponses L'ensemble de données proposé dans . L'ensemble de données contient trois dossiers : un dossier d'images, un dossier de paires questions-réponses et un dossier de métadonnées de graphique à barres.
Les graphiques à barres sont un moyen efficace de transmettre des informations numériques, mais les algorithmes actuels ne peuvent pas les analyser. Les méthodes existantes échouent même face à des changements d’apparence mineurs.L'équipe de recherche a proposé DVQA, un ensemble de données qui teste de nombreux aspects de la compréhension des graphiques à barres dans un cadre de questions-réponses.. Contrairement à la méthode de réponse visuelle aux questions (VQA), la DVQA doit traiter des mots et des réponses propres à un graphique à barres particulier. Les algorithmes VQA de pointe sont peu performants en DVQA, et l'équipe de recherche a proposé deux bases de référence solides qui fonctionnent mieux. Les travaux de l'équipe de recherche permettront aux algorithmes d'extraire automatiquement des informations numériques et sémantiques à partir d'un grand nombre de graphiques à barres trouvés dans des publications scientifiques, des articles Internet, des rapports d'affaires et de nombreux autres domaines.
L'ensemble de données DVQA est généré à l'aide de matplotlib. Il existe deux types de questions dans l'ensemble de données : l'une est une question générale commune à tous les graphiques, et l'autre est une question spéciale valable pour un graphique spécifique.
Les questions couvrent trois aspects : a) la compréhension de la structure, b) la récupération des données et c) le raisonnement sur les données. Voir l'image ci-dessus pour un exemple.
L'ensemble de tests comporte deux types de questions couvrant une gamme de mots : Test-Familiar inclut uniquement les mots de l'ensemble d'entraînement, et Test-Novel inclut également les mots nouvellement apparus.