Ensemble De Données De Réponses Aux Questions D'articles Scientifiques Multimodaux SPIQA
Date
Taille
URL de publication
Cet ensemble de données a été lancé par une équipe de recherche de Google Research et de l'Université Johns Hopkins en 2024. Les résultats pertinents de l'article sont «SPIQA : un ensemble de données pour la réponse multimodale aux questions sur les articles scientifiques".
Arrière-plan
Trouver des réponses aux questions dans de longs articles de recherche scientifique est un domaine de recherche important qui aide les lecteurs à résoudre rapidement leurs questions. Cependant, les ensembles de données de questions-réponses (AQ) existants basés sur des articles scientifiques sont limités en termes d’échelle et se concentrent uniquement sur le contenu textuel. Pour remédier à cette limitation, l’équipe de recherche a lancé SPIQA (Scientific Paper Image Question Answering).
Présentation de l'ensemble de données
Il s’agit du premier ensemble de données d’assurance qualité à grande échelle spécialement conçu pour interpréter des figures et des tableaux complexes dans des articles de recherche scientifique dans divers domaines de l’informatique. Tirez parti de l’expertise et des capacités de compréhension graphique des modèles multimodaux de langage volumineux (MLLM). L'équipe de recherche a conçu une tâche de recherche d'informations impliquant plusieurs images couvrant une variété de graphiques, de tableaux, de diagrammes et de visualisations de résultats, en utilisant à la fois une conservation automatique et manuelle pour créer l'ensemble de données. SPIQA contient 270 000 questions divisées en formation, validation et trois parties d'évaluation différentes. En menant des expériences approfondies sur 12 modèles de base bien connus, l’équipe a évalué la capacité des systèmes multimodaux actuels à comprendre les aspects subtils des articles de recherche.