HyperAIHyperAI
il y a 2 mois

Spider 2.0 : Évaluation des modèles de langage sur les workflows Texte-vers-SQL du monde réel des entreprises

Lei, Fangyu ; Chen, Jixuan ; Ye, Yuxiao ; Cao, Ruisheng ; Shin, Dongchan ; Su, Hongjin ; Suo, Zhaoqing ; Gao, Hongcheng ; Hu, Wenjing ; Yin, Pengcheng ; Zhong, Victor ; Xiong, Caiming ; Sun, Ruoxi ; Liu, Qian ; Wang, Sida ; Yu, Tao
Spider 2.0 : Évaluation des modèles de langage sur les workflows Texte-vers-SQL du monde réel des entreprises
Résumé

Les flux de travail text-to-SQL du monde réel impliquent souvent des données complexes dans le cloud ou sur site, traversant divers systèmes de bases de données, avec plusieurs requêtes SQL en différents dialectes et une gamme d'opérations allant de la transformation des données à l'analyse. Nous présentons Spider 2.0, un cadre d'évaluation composé de 632 problèmes de flux de travail text-to-SQL issus de cas d'utilisation à l'échelle d'entreprise. Les bases de données dans Spider 2.0 proviennent d'applications de données réelles, contenant souvent plus de 1 000 colonnes et stockées dans des systèmes de bases de données locaux ou cloud tels que BigQuery et Snowflake. Nous montrons que la résolution des problèmes dans Spider 2.0 nécessite fréquemment une compréhension et une recherche approfondies des métadonnées des bases de données, des documents sur les dialectes SQL, et même des bases de code au niveau du projet. Ce défi exige que les modèles interagissent avec des environnements complexes de flux de travail SQL, traitent des contextes extrêmement longs, effectuent un raisonnement détaillé et génèrent plusieurs requêtes SQL avec diverses opérations, souvent dépassant 100 lignes, ce qui dépasse largement les défis traditionnels text-to-SQL. Nos évaluations indiquent que, selon o1-preview, notre cadre d'agent code ne parvient à résoudre que 21,3 % des tâches, contre 91,2 % pour Spider 1.0 et 73,0 % pour BIRD. Nos résultats sur Spider 2.0 montrent que bien que les modèles linguistiques aient démontré des performances remarquables en génération de code — en particulier dans les benchmarks text-to-SQL précédents — ils nécessitent encore d'importantes améliorations pour atteindre une performance adéquate pour une utilisation réelle en entreprise. Le progrès sur Spider 2.0 représente des étapes cruciales vers le développement d'agents code intelligents et autonomes pour les environnements d'entreprise réels. Notre code, nos modèles baselines et nos données sont disponibles à l'adresse suivante : https://spider2-sql.github.io

Spider 2.0 : Évaluation des modèles de langage sur les workflows Texte-vers-SQL du monde réel des entreprises | Articles de recherche récents | HyperAI