SCoRe : Pré-entraînement pour la représentation du contexte dans l'analyse sémantique conversationnelle

La parsing sémantique conversationnel (CSP) consiste à transformer une séquence de requêtes en langage naturel en un langage formel (par exemple SQL, SPARQL) exécutable contre une ontologie structurée (par exemple bases de données, bases de connaissances). Pour accomplir cette tâche, un système CSP doit modéliser la relation entre l’énoncé en langage naturel non structuré et l’ontologie structurée, tout en représentant la dynamique multi-tours du dialogue. Les modèles de langage pré-entraînés (LM) sont actuellement l’état de l’art pour de nombreuses tâches de traitement du langage naturel. Toutefois, les modèles pré-entraînés existants, dont l’objectif d’entraînement repose sur la modélisation du langage appliquée à des textes libres, présentent une capacité limitée à représenter les références en langage naturel aux données structurées contextuelles. Dans ce travail, nous proposons SCORE, une nouvelle méthode d’entraînement préalable pour les tâches de CSP, conçue pour induire des représentations capables de capturer l’alignement entre le flux de dialogue et le contexte structurel. Nous démontrons la large applicabilité de SCORE sur les tâches de CSP en l’associant à des systèmes de base performants sur quatre tâches différentes (SPARC, COSQL, MWOZ et SQA). Nous montrons que SCORE améliore significativement les performances de tous ces systèmes de base et atteint l’état de l’art sur trois d’entre eux. Notre implémentation et les points de contrôle du modèle seront disponibles à l’adresse anonyme suivante : Anonymous URL.