HyperAIHyperAI

Ensemble De Données De Questions-réponses Tabulaires Semi-structurées SSTQA

Aide au téléchargement

SSTQA est un ensemble de données de référence pour les tâches de réponses à des questions sous forme de tableaux semi-structurés, publié en 2025 par l'Université Jiao Tong de Shanghai, l'Université Simon Fraser, l'Université Tsinghua et d'autres institutions. Les résultats de l'étude sont les suivants :ST-Raptor : Questionnaire semi-structuré basé sur LLM", qui vise à tester les capacités de compréhension et de réponse des modèles de langage à grande échelle et des systèmes de réponse aux questions de tableau face à des dispositions complexes dans des tableaux réels (tels que des cellules fusionnées, des en-têtes hiérarchiques, une imbrication à plusieurs niveaux, etc.).

Cet ensemble de données contient 102 tableaux complexes et concrets, accompagnés de 764 questions correspondantes, couvrant 19 scénarios d'application représentatifs du monde réel. Les tableaux comprennent des cellules imbriquées, des en-têtes à plusieurs niveaux et des dispositions irrégulières, reflétant pleinement la complexité structurelle des problèmes concrets. Les paires question-réponse sont construites grâce à une combinaison de génération automatique et de vérification manuelle, et sont classées en trois niveaux de difficulté : facile, moyen et difficile. L'ensemble de données couvre des tâches allant de la recherche directe au raisonnement complexe, garantissant ainsi des tâches variées et stimulantes.

Cet ensemble de données répond aux problématiques des ensembles de données semi-structurés existants, tels que la petite échelle, la structure simple et l'absence de lien avec les applications réelles. Il se caractérise par une structure complexe, des scénarios riches, des niveaux de difficulté clairs et une annotation de haute qualité. Il est adapté à l'entraînement et à l'évaluation de grands modèles multimodaux et de systèmes de questions-réponses à base de tableaux, et constitue une référence importante pour la compréhension des tableaux et les applications intelligentes.