vor 16 Tagen

Können LLM bereits als Datenbank-Schnittstelle dienen? Ein großer Bench für großskalige, datenbankbasierte Text-zu-SQL-Aufgaben

Jinyang Li, Binyuan Hui, Ge Qu, Jiaxi Yang, Binhua Li, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Xuanhe Zhou, Chenhao Ma, Guoliang Li, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li

Details der Forschungsarbeit anzeigen

Können LLM bereits als Datenbank-Schnittstelle dienen? Ein großer Bench für großskalige, datenbankbasierte Text-zu-SQL-Aufgaben

Abstract

Text-to-SQL-Parsing, das darauf abzielt, natürliche Sprachanweisungen in ausführbare SQL-Anweisungen zu übersetzen, hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen. Insbesondere haben Codex und ChatGPT beeindruckende Ergebnisse in dieser Aufgabe erzielt. Allerdings konzentrieren sich die meisten gängigen Benchmarks, wie beispielsweise Spider und WikiSQL, auf Datenbankschemata mit nur wenigen Datensätzen, was eine Lücke zwischen akademischer Forschung und realen Anwendungen verursacht. Um diese Lücke zu schließen, präsentieren wir BIRD – einen umfassenden Benchmark für große, datenbankbasierte Text-to-SQL-Aufgaben, der 12.751 Paare aus natürlicher Sprache und SQL enthält und 95 Datenbanken mit insgesamt 33,4 GB Umfang umfasst, die sich über 37 Fachgebiete erstrecken. Unser Fokus auf Datenbankwerte hebt neue Herausforderungen hervor: verschmutzte Datenbankinhalte, externe Wissensverknüpfungen zwischen natürlichen Sprachfragen und Datenbankinhalten sowie die Effizienz von SQL-Abfragen, insbesondere im Kontext großer Datenbanken. Um diese Probleme zu bewältigen, müssen Text-to-SQL-Modelle nicht nur semantische Analysefähigkeiten besitzen, sondern auch ein tiefes Verständnis für Datenbankwerte aufweisen. Die experimentellen Ergebnisse belegen die entscheidende Rolle von Datenbankwerten bei der Generierung präziser Text-to-SQL-Übersetzungen für große Datenbanken. Zudem erreicht selbst das leistungsfähigste Text-to-SQL-Modell, nämlich ChatGPT, lediglich eine Ausführungsgenauigkeit von 40,08 %, was deutlich unter dem menschlichen Ergebnis von 92,96 % liegt und somit die bestehenden Herausforderungen unterstreicht. Darüber hinaus liefern wir eine Effizienzanalyse, die Einblicke in die Erzeugung von effizienten SQL-Abfragen bietet, die für industrielle Anwendungen von großem Nutzen sind. Wir sind überzeugt, dass BIRD zur Weiterentwicklung realweltrelevanter Anwendungen der Text-to-SQL-Forschung beitragen wird. Die Rangliste und der Quellcode sind verfügbar unter: https://bird-bench.github.io/.