vor 2 Monaten

Spider 2.0: Evaluierung von Sprachmodellen in realen Unternehmensworkflows für Text-to-SQL

Lei, Fangyu ; Chen, Jixuan ; Ye, Yuxiao ; Cao, Ruisheng ; Shin, Dongchan ; Su, Hongjin ; Suo, Zhaoqing ; Gao, Hongcheng ; Hu, Wenjing ; Yin, Pengcheng ; Zhong, Victor ; Xiong, Caiming ; Sun, Ruoxi ; Liu, Qian ; Wang, Sida ; Yu, Tao

Details der Forschungsarbeit anzeigen

Spider 2.0: Evaluierung von Sprachmodellen in realen Unternehmensworkflows für Text-to-SQL

Abstract

Reale Unternehmens-Text-zu-SQL-Arbeitsabläufe beinhalten oft komplexe Cloud- oder lokale Daten über verschiedene Datenbanksysteme, mehrere SQL-Abfragen in verschiedenen Dialekten und vielfältige Operationen von der Datentransformation bis zur Analyse. Wir stellen Spider 2.0 vor, ein Evaluierungsframework, das 632 reale Text-zu-SQL-Arbeitsablaufprobleme umfasst, die aus unternehmensspezifischen Datenbankanwendungsfällen abgeleitet wurden. Die Datenbanken in Spider 2.0 stammen aus realen Datenanwendungen und enthalten häufig über 1.000 Spalten, die in lokalen oder Cloud-Datenbanksystemen wie BigQuery und Snowflake gespeichert sind. Wir zeigen, dass die Lösung von Problemen in Spider 2.0 häufig ein Verständnis und eine Durchsuchung von Datenbankmetadaten, Dialekt-Dokumentationen und sogar projektspezifischen Codebasen erfordert. Diese Herausforderung verlangt nach Modellen, die mit komplexen SQL-Arbeitsumgebungen interagieren können, extrem lange Kontexte verarbeiten, feinsinnige Schlussfolgerungen ziehen und mehrere SQL-Abfragen mit diversen Operationen generieren können, die oft über 100 Zeilen umfassen – was weit über traditionelle Text-zu-SQL-Herausforderungen hinausgeht. Unsere Evaluierungen deuten darauf hin, dass unser Code-Agent-Framework auf Basis von o1-preview nur 21,3 % der Aufgaben erfolgreich lösen kann, im Vergleich zu 91,2 % bei Spider 1.0 und 73,0 % bei BIRD. Unsere Ergebnisse bei Spider 2.0 zeigen, dass obwohl Sprachmodelle bemerkenswerte Leistungen bei der Codegenerierung erbracht haben – insbesondere in früheren Text-zu-SQL-Benchmarks – sie erhebliche Verbesserungen benötigen, um für den Einsatz in realen Unternehmensumgebungen angemessene Leistungen zu erzielen. Fortschritte bei Spider 2.0 stellen entscheidende Schritte dar für die Entwicklung intelligenter und autonomer Code-Agenten für reale Unternehmensszenarien. Unser Quellcode, Basismodelle und Daten sind unter https://spider2-sql.github.io verfügbar.