Text-to-SQL in the Wild : un jeu de données issu de données naturelles provenant de Stack Exchange

La plupart des jeux de données disponibles pour la parsing sémantique, composés de paires d’énoncés naturels et de formes logiques, ont été collectés exclusivement dans le but d’entraîner et d’évaluer des systèmes de compréhension du langage naturel. En conséquence, ils ne contiennent aucune des richesses et de la variété des énoncés rencontrés dans des contextes réels, où les humains posent des questions sur des données dont ils ont besoin ou qu’ils trouvent intéressantes. Dans ce travail, nous présentons SEDE, un jeu de données comprenant 12 023 paires d’énoncés et de requêtes SQL, collectées à partir d’usages réels sur le site Stack Exchange. Nous montrons que ces paires incluent une grande variété de défis du monde réel, rarement représentés dans les autres jeux de données de parsing sémantique, proposons une métrique d’évaluation fondée sur la comparaison de clauses partielles de requêtes, plus adaptée aux requêtes du monde réel, et menons des expériences avec des modèles de référence performants, révélant un écart important entre les performances sur SEDE et celles sur d’autres jeux de données courants.