Apprentissage de représentations contextuelles pour l’analyse sémantique avec un pré-entraînement augmenté par génération

Récemment, un intérêt croissant s’est porté sur l’apprentissage de représentations contextuelles pour diverses tâches de traitement du langage naturel (NLP), en exploitant de grandes corpora de texte pour entraîner des modèles linguistiques neuronaux à grande échelle à l’aide d’objectifs d’apprentissage auto-supervisé, tels que le Modèle de Langage Masqué (MLM). Toutefois, sur la base d’une étude pilote, nous observons trois limitations des modèles linguistiques généraux lorsqu’ils sont appliqués à des parseurs sémantiques text-to-SQL : leur incapacité à détecter les mentions de colonnes dans les énoncés, leur difficulté à inférer des mentions de colonnes à partir des valeurs des cellules, et leur incapacité à composer des requêtes SQL complexes. Pour atténuer ces problèmes, nous proposons un cadre d’entraînement préalable de modèle, appelé GAP (Generation-Augmented Pre-training), qui apprend conjointement des représentations des énoncés en langage naturel et des schémas de tables en exploitant des modèles de génération pour produire les données d’entraînement préalable. Le modèle GAP est entraîné sur 2 millions de paires énoncé-schéma et 30 000 triples énoncé-schéma-SQL, les énoncés étant générés par des modèles génératifs. Sur la base des résultats expérimentaux, les parseurs sémantiques neuronaux utilisant GAP MODEL comme encodeur de représentation atteignent de nouveaux records d’état de l’art sur les benchmarks SPIDER et CRITERIA-TO-SQL.