Entraînement postérieur à granularité fine pour améliorer les systèmes de dialogue basés sur la récupération

Les systèmes de dialogue basés sur la récupération affichent des performances remarquables lorsqu’ils s’appuient sur des modèles pré-entraînés de langage, tels que les représentations bidirectionnelles des encodeurs à base de transformateurs (BERT). Lors de la sélection de réponses dans un dialogue à plusieurs tours, BERT se concentre sur l’apprentissage des relations entre le contexte composé de plusieurs énoncés et la réponse. Toutefois, cette approche d’apprentissage s’avère insuffisante lorsqu’il s’agit de modéliser les relations entre chaque énoncé au sein du contexte. Cela entraîne un manque de compréhension complète du flux contextuel nécessaire pour sélectionner une réponse appropriée. Pour remédier à ce problème, nous proposons une nouvelle méthode d’entraînement post-pré-entraînement à un niveau plus fin, conçue pour refléter les caractéristiques des dialogues à plusieurs tours. Plus précisément, le modèle apprend les interactions au niveau des énoncés en entraînant chaque paire courte contexte-réponse au sein d’une session de dialogue. En outre, grâce à une nouvelle fonction objectif d’entraînement, appelée classification de pertinence entre énoncés, le modèle parvient à saisir la pertinence sémantique et la cohérence entre les énoncés du dialogue. Les résultats expérimentaux montrent que notre modèle atteint un nouveau record sur trois jeux de données standard, avec des marges significatives. Cela démontre que la méthode d’entraînement post-pré-entraînement à un niveau fin est particulièrement efficace pour la tâche de sélection de réponses.