HyperAIHyperAI

Command Palette

Search for a command to run...

Spider 2.0: Evaluierung von Sprachmodellen in realen Unternehmensworkflows für Text-to-SQL

Zusammenfassung

Reale Unternehmens-Text-zu-SQL-Arbeitsabläufe beinhalten oft komplexe Cloud- oder lokale Daten über verschiedene Datenbanksysteme, mehrere SQL-Abfragen in verschiedenen Dialekten und vielfältige Operationen von der Datentransformation bis zur Analyse. Wir stellen Spider 2.0 vor, ein Evaluierungsframework, das 632 reale Text-zu-SQL-Arbeitsablaufprobleme umfasst, die aus unternehmensspezifischen Datenbankanwendungsfällen abgeleitet wurden. Die Datenbanken in Spider 2.0 stammen aus realen Datenanwendungen und enthalten häufig über 1.000 Spalten, die in lokalen oder Cloud-Datenbanksystemen wie BigQuery und Snowflake gespeichert sind. Wir zeigen, dass die Lösung von Problemen in Spider 2.0 häufig ein Verständnis und eine Durchsuchung von Datenbankmetadaten, Dialekt-Dokumentationen und sogar projektspezifischen Codebasen erfordert. Diese Herausforderung verlangt nach Modellen, die mit komplexen SQL-Arbeitsumgebungen interagieren können, extrem lange Kontexte verarbeiten, feinsinnige Schlussfolgerungen ziehen und mehrere SQL-Abfragen mit diversen Operationen generieren können, die oft über 100 Zeilen umfassen – was weit über traditionelle Text-zu-SQL-Herausforderungen hinausgeht. Unsere Evaluierungen deuten darauf hin, dass unser Code-Agent-Framework auf Basis von o1-preview nur 21,3 % der Aufgaben erfolgreich lösen kann, im Vergleich zu 91,2 % bei Spider 1.0 und 73,0 % bei BIRD. Unsere Ergebnisse bei Spider 2.0 zeigen, dass obwohl Sprachmodelle bemerkenswerte Leistungen bei der Codegenerierung erbracht haben – insbesondere in früheren Text-zu-SQL-Benchmarks – sie erhebliche Verbesserungen benötigen, um für den Einsatz in realen Unternehmensumgebungen angemessene Leistungen zu erzielen. Fortschritte bei Spider 2.0 stellen entscheidende Schritte dar für die Entwicklung intelligenter und autonomer Code-Agenten für reale Unternehmensszenarien. Unser Quellcode, Basismodelle und Daten sind unter https://spider2-sql.github.io verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp