La Mort du Liens entre Schémas ? Le Texte vers SQL à l’Époque des Modèles Linguistiques Bien Raisonnés

Le lien de schéma constitue une étape cruciale dans les chaînes de traitement du langage naturel vers SQL (Text-to-SQL). Son objectif est de récupérer les tables et colonnes pertinentes d'une base de données cible en réponse à une requête utilisateur, tout en ignorant les éléments non pertinents. Toutefois, un lien de schéma imparfait peut entraîner l'exclusion de colonnes essentielles pour la génération précise de requêtes. Dans ce travail, nous reprenons l'analyse du lien de schéma dans le contexte des dernières générations de grands modèles linguistiques (LLM). Nous constatons empiriquement que ces modèles récents sont particulièrement habiles à exploiter les éléments de schéma pertinents lors de la génération, même en présence d'un grand nombre d'éléments non pertinents. En conséquence, notre chaîne Text-to-SQL renonce entièrement au lien de schéma dans les cas où le schéma peut tenir dans la fenêtre contextuelle du modèle, afin de minimiser les risques liés à l’élimination accidentelle d’éléments de schéma nécessaires. Par ailleurs, au lieu de filtrer l’information contextuelle, nous mettons en avant des techniques telles que l’augmentation, la sélection et la correction, que nous intégrons pour améliorer la précision de notre pipeline Text-to-SQL. Notre approche obtient la première place sur le benchmark BIRD, avec une précision de 71,83 %.