Peut-on déjà utiliser les LLM comme interface de base de données ? Un grand test pour les systèmes text-to-SQL fondés sur de grandes bases de données

La transformation de texte en SQL (text-to-SQL), qui vise à convertir des instructions en langage naturel en requêtes SQL exécutables, a suscité un intérêt croissant ces dernières années. En particulier, des modèles comme Codex et ChatGPT ont obtenu des résultats remarquables sur cette tâche. Toutefois, la plupart des benchmarks courants, tels que Spider et WikiSQL, se concentrent sur des schémas de base de données comprenant un faible nombre de lignes de données, laissant un écart significatif entre les recherches académiques et les applications réelles. Pour réduire cet écart, nous proposons BIRD, un grand benchmark pour les tâches text-to-SQL fondé sur de grandes bases de données, comprenant 12 751 paires de données texte-SQL et 95 bases de données d'une taille totale de 33,4 Go, couvrant 37 domaines spécialisés. Notre accent mis sur les valeurs des bases de données met en lumière de nouveaux défis, notamment la présence de données brutes, l'existence de connaissances externes entre les questions en langage naturel et le contenu de la base de données, ainsi que l'efficacité des requêtes SQL, en particulier dans le contexte de bases de données massives. Pour relever ces défis, les modèles text-to-SQL doivent non seulement maîtriser l'analyse sémantique, mais aussi comprendre les valeurs présentes dans les bases de données. Les résultats expérimentaux démontrent l'importance cruciale des valeurs de base de données pour générer des requêtes SQL précises dans le cadre de grandes bases de données. En outre, même les modèles les plus performants, tels que ChatGPT, atteignent seulement 40,08 % en précision d'exécution, un résultat encore très éloigné de la performance humaine de 92,96 %, ce qui confirme que de nombreux défis persistent. Par ailleurs, nous fournissons également une analyse d'efficacité afin d'offrir des perspectives sur la génération de requêtes SQL efficaces, bénéfiques pour les applications industrielles. Nous sommes convaincus que BIRD contribuera à faire progresser les applications réelles de la recherche en text-to-SQL. Le classement et le code source sont disponibles à l'adresse suivante : https://bird-bench.github.io/.