KaggleDBQA : Évaluation réaliste des parseurs Text-to-SQL

L’objectif de la réponse aux questions sur les bases de données consiste à permettre l’interrogation par langage naturel de bases de données relationnelles réelles dans divers domaines d’application. Récemment, des jeux de données à grande échelle tels que Spider et WikiSQL ont permis le développement de nouvelles techniques de modélisation pour le traitement du texte en SQL, améliorant ainsi la généralisation zéro-shot à des bases de données inconnues. Dans ce travail, nous examinons les défis qui empêchent encore ces techniques d’être déployées en pratique. Premièrement, nous introduisons KaggleDBQA, un nouveau jeu de données d’évaluation interdomaines basé sur des bases de données Web réelles, caractérisé par des types de données spécifiques aux domaines, une mise en forme originale et des questions non restreintes. Deuxièmement, nous réévaluons le choix des tâches d’évaluation pour les parseurs texte-en-SQL dans des contextes réels. Enfin, nous enrichissons notre tâche d’évaluation dans le domaine par l’ajout de la documentation de base de données, une source naturelle de connaissance implicite du domaine. Nous démontrons que KaggleDBQA constitue un défi pour les parseurs zéro-shot d’avant-garde, mais que l’utilisation plus réaliste de ce jeu de données, combinée à une exploitation créative de la documentation associée, améliore leur précision de plus de 13,2 %, doublant ainsi leurs performances.