HyperAIHyperAI
il y a 2 mois

PlotQA : Raisonnement sur les graphiques scientifiques

Methani, Nitesh ; Ganguly, Pritha ; Khapra, Mitesh M. ; Kumar, Pratyush
PlotQA : Raisonnement sur les graphiques scientifiques
Résumé

Les jeux de données synthétiques existants (FigureQA, DVQA) pour la raisonnement sur les graphiques ne contiennent pas de variabilité dans les étiquettes de données, des données à valeurs réelles ou des questions de raisonnement complexes. Par conséquent, les modèles proposés pour ces jeux de données n'abordent pas pleinement le défi du raisonnement sur les graphiques. En particulier, ils supposent que la réponse provient soit d'un vocabulaire fixe de petite taille, soit d'une boîte englobante au sein de l'image. Cependant, en pratique, cette hypothèse est irréaliste car de nombreuses questions nécessitent un raisonnement et ont donc des réponses à valeurs réelles qui ne figurent ni dans un vocabulaire fixe de petite taille ni dans l'image. Dans ce travail, nous visons à combler cet écart entre les jeux de données existants et les graphiques du monde réel. Plus précisément, nous proposons PlotQA avec 28,9 millions de paires question-réponse sur 224 377 graphiques issus de sources du monde réel et basés sur des modèles de questions collectées auprès d'une foule. De plus, 80,76 % des questions hors vocabulaire (OOV) dans PlotQA ont des réponses qui ne sont pas présentes dans un vocabulaire fixe. L'analyse des modèles existants sur PlotQA montre qu'ils ne peuvent pas traiter les questions OOV : leur précision globale sur notre jeu de données se situe en chiffres simples. Ce n'est pas surprenant étant donné que ces modèles n'ont pas été conçus pour répondre à ce type de questions. Comme étape vers un modèle plus holistique capable d'aborder à la fois les questions avec un vocabulaire fixe et les questions OOV, nous proposons une approche hybride : certaines questions sont répondues en choisissant la réponse parmi un vocabulaire fixe ou en l'extraction d'une boîte englobante prédite dans le graphique, tandis que d'autres questions sont traitées par un moteur de réponse aux questions tabulaires alimenté par une table structurée générée à partir de la détection d'éléments visuels dans l'image. Sur le jeu de données DVQA existant, notre modèle atteint une précision de 58 %, améliorant considérablement la meilleure précision rapportée précédemment (46 %). Sur PlotQA, notre modèle atteint une précision de 22,52 %, ce qui est nettement meilleur que celle des modèles actuels.注:在某些情况下,我保留了英文术语(如“OOV”)并在首次出现时进行了解释,以确保信息的完整性。