Apprentissage de représentations indépendantes des métadonnées pour la sélection de contexte Texte-vers-SQL

L'apprentissage en contexte (ICL) est un paradigme puissant dans lequel les grands modèles de langage (LLMs) bénéficient des démonstrations de tâches ajoutées à la commande. Cependant, sélectionner les démonstrations optimales n'est pas une tâche simple, particulièrement pour des tâches complexes ou multimodales où les distributions d'entrée et de sortie diffèrent. Nous formulons l'hypothèse que la formation de représentations spécifiques à la tâche de l'entrée est cruciale. Dans cet article, nous proposons une méthode pour aligner les représentations des questions en langage naturel et celles des requêtes SQL dans un espace d'embedding partagé. Notre technique, baptisée MARLO - Apprentissage de représentations indépendantes des métadonnées pour Text-to-SQL - utilise la structure des requêtes pour modéliser l'intention de recherche sans sur-indexation sur les métadonnées sous-jacentes de la base de données (c'est-à-dire les tables, colonnes ou entités spécifiques à un domaine mentionnées dans la question ou la requête). Cela permet à MARLO de sélectionner des exemples qui sont pertinents tant structurellement que sémantiquement pour la tâche, plutôt que des exemples liés par hasard à un certain domaine ou à une formulation particulière de la question. Lorsqu'elle est utilisée pour récupérer des exemples basés sur la similarité des questions, MARLO montre une performance supérieure comparée aux modèles d'embedding génériques (+2,9 % en moyenne en termes de précision d'exécution) sur le benchmark Spider. Elle dépasse également la méthode suivante qui masque les informations métadonnées (+0,8 % en moyenne en termes de précision d'exécution), tout en imposant une latence d'inférence significativement plus faible.