HyperAIHyperAI
vor 7 Tagen

CoSQL: Eine conversationale Text-zu-SQL-Herausforderung im Dienste von cross-domain natürlichen Sprach-Schnittstellen zu Datenbanken

Tao Yu, Rui Zhang, He Yang Er, Suyi Li, Eric Xue, Bo Pang, Xi Victoria Lin, Yi Chern Tan, Tianze Shi, Zihan Li, Youxuan Jiang, Michihiro Yasunaga, Sungrok Shim, Tao Chen, Alexander Fabbri, Zifan Li, Luyao Chen, Yuwen Zhang, Shreya Dixit, Vincent Zhang, Caiming Xiong, Richard Socher, Walter S Lasecki, Dragomir Radev
CoSQL: Eine conversationale Text-zu-SQL-Herausforderung im Dienste von cross-domain natürlichen Sprach-Schnittstellen zu Datenbanken
Abstract

Wir präsentieren CoSQL, eine Korpus-Datenbasis zur Entwicklung von dialogbasierten Systemen für die Abfrage von Datenbanken (DB) über verschiedene Domänen hinweg und mit allgemeiner Anwendbarkeit. Das Korpus umfasst über 30.000 Dialogschritte sowie über 10.000 annotierte SQL-Abfragen, die aus einer Wizard-of-Oz (WOZ)-Sammlung von 3.000 Dialogen gewonnen wurden, in denen 200 komplexe Datenbanken aus 138 unterschiedlichen Domänen abgefragt wurden. Jeder Dialog simuliert eine realitätsnahe Datenbankabfragesituation, bei der ein Nutzer – repräsentiert durch einen Crowdsourcer – die Datenbank erkundet, während ein SQL-Experte die Antworten mithilfe von SQL-Abfragen liefert, unklare Fragen klärt oder darauf hinweist, wenn eine Frage nicht beantwortbar ist. Wenn die Fragen durch SQL beantwortet werden können, beschreibt der Experte dem Nutzer sowohl die SQL-Abfrage als auch die Ergebnisse, wodurch ein natürliches Interaktionsfluss gewährleistet wird. Im Gegensatz zu bestehenden datenbasierten Dialog-Datenbanken stellt CoSQL neue Herausforderungen dar: (1) Die Dialogzustände sind auf SQL basiert, einer domänenunabhängigen, ausführbaren Darstellungsform, anstelle von domänenspezifischen Schlüssel-Wert-Paaren, und (2) da die Tests an bisher unbekannten Datenbanken durchgeführt werden, erfordert Erfolg eine Generalisierung auf neue Domänen. CoSQL umfasst drei Aufgaben: SQL-basierte Zustandsverfolgung im Dialog, Antwortgenerierung aus Abfrageergebnissen sowie Vorhersage des Nutzerdialog-Akts. Wir evaluieren eine Reihe starker Baseline-Modelle für jede Aufgabe und zeigen, dass CoSQL erhebliche Herausforderungen für zukünftige Forschung darstellt. Das Datenset, die Baselines und die Leaderboard-Plattform werden unter https://yale-lily.github.io/cosql veröffentlicht.

CoSQL: Eine conversationale Text-zu-SQL-Herausforderung im Dienste von cross-domain natürlichen Sprach-Schnittstellen zu Datenbanken | Neueste Forschungsarbeiten | HyperAI