HyperAIHyperAI
il y a 2 mois

Spider : Un grand ensemble de données étiquetées par des humains pour l'analyse sémantique complexe et la tâche de transformation du texte en SQL dans plusieurs domaines

Tao Yu; Rui Zhang; Kai Yang; Michihiro Yasunaga; Dongxu Wang; Zifan Li; James Ma; Irene Li; Qingning Yao; Shanelle Roman; Zilin Zhang; Dragomir Radev
Spider : Un grand ensemble de données étiquetées par des humains pour l'analyse sémantique complexe et la tâche de transformation du texte en SQL dans plusieurs domaines
Résumé

Nous présentons Spider, un ensemble de données à grande échelle, complexe et interdomaines pour l'analyse sémantique et la conversion texte-à-SQL, annoté par 11 étudiants universitaires. Il comprend 10 181 questions et 5 693 requêtes SQL complexes uniques sur 200 bases de données à multiples tables, couvrant 138 domaines différents. Nous définissons une nouvelle tâche d'analyse sémantique complexe et interdomaines où des requêtes SQL complexes différentes et des bases de données apparaissent dans les ensembles d'entraînement et de test. De cette façon, la tâche nécessite que le modèle généralise bien aux nouvelles requêtes SQL et aux nouveaux schémas de base de données. Spider se distingue de la plupart des tâches d'analyse sémantique précédentes car celles-ci utilisent toutes une seule base de données et les mêmes programmes exacts dans les ensembles d'entraînement et de test. Nous avons expérimenté divers modèles d'avant-garde, et le meilleur modèle n'a atteint qu'une précision exacte de correspondance de 12,4 % dans un scénario de partition de base de données. Cela montre que Spider représente un défi majeur pour les futures recherches. Notre ensemble de données et notre tâche sont disponibles au public à l'adresse suivante : https://yale-lily.github.io/spider