HyperAIHyperAI
il y a 7 jours

CoSQL : un défi de conversion texte-en-SQL conversationnel vers des interfaces naturelles multi-domaines pour les bases de données

Tao Yu, Rui Zhang, He Yang Er, Suyi Li, Eric Xue, Bo Pang, Xi Victoria Lin, Yi Chern Tan, Tianze Shi, Zihan Li, Youxuan Jiang, Michihiro Yasunaga, Sungrok Shim, Tao Chen, Alexander Fabbri, Zifan Li, Luyao Chen, Yuwen Zhang, Shreya Dixit, Vincent Zhang, Caiming Xiong, Richard Socher, Walter S Lasecki, Dragomir Radev
CoSQL : un défi de conversion texte-en-SQL conversationnel vers des interfaces naturelles multi-domaines pour les bases de données
Résumé

Nous présentons CoSQL, un corpus destiné à la construction de systèmes dialogués généraux et polyvalents pour l'interrogation de bases de données (BD). Il comprend plus de 30 000 échanges ainsi que plus de 10 000 requêtes SQL annotées, issues d'une collecte de type Wizard-of-Oz (WOZ) regroupant 3 000 dialogues interrogant 200 bases de données complexes couvrant 138 domaines distincts. Chaque dialogue simule une situation réelle d'interrogation de base de données, dans laquelle un travailleur de la foule agit en tant qu'utilisateur explorant la BD, tandis qu'un expert en SQL fournit les réponses en utilisant des requêtes SQL, clarifie les questions ambiguës ou informe en cas d'indisponibilité de réponse. Lorsque les questions posées par l'utilisateur peuvent être traitées par SQL, l'expert décrit à l'utilisateur la requête SQL correspondante ainsi que ses résultats d'exécution, assurant ainsi un flux d'interaction naturel. CoSQL introduit de nouveaux défis par rapport aux jeux de données existants dédiés aux dialogues orientés tâches : (1) les états dialogués sont ancrés dans le SQL, une représentation exécutable indépendante du domaine, plutôt que dans des paires clé-valeur spécifiques à un domaine ; (2) en raison du test effectué sur des bases de données inédites, le succès exige une généralisation à de nouveaux domaines. CoSQL inclut trois tâches : suivi d'état dialogué ancré sur le SQL, génération de réponses à partir des résultats de requête, et prédiction des actes dialogués de l'utilisateur. Nous évaluons un ensemble de modèles de base performants pour chacune de ces tâches et montrons que CoSQL pose des défis significatifs pour les recherches futures. Le jeu de données, les modèles de base et le classement seront publiés à l'adresse suivante : https://yale-lily.github.io/cosql.

CoSQL : un défi de conversion texte-en-SQL conversationnel vers des interfaces naturelles multi-domaines pour les bases de données | Articles de recherche récents | HyperAI