Les modèles de sélection de réponse connaissent-ils vraiment ce qui vient ensuite ? Stratégies de manipulation d'utterances pour la sélection de réponses multi-tours

Dans cet article, nous étudions la tâche de sélectionner la réponse optimale en fonction de l'historique des énoncés d'un utilisateur et d'un système dans les systèmes de dialogue à plusieurs tours basés sur la recherche. Récemment, les modèles de langage pré-entraînés (par exemple, BERT, RoBERTa et ELECTRA) ont montré des améliorations significatives dans diverses tâches de traitement du langage naturel. Cette tâche et d'autres similaires de sélection de réponses peuvent également être résolues en utilisant ces modèles de langage en formulant les tâches comme des tâches de classification binaire dialogue-réponse. Bien que les travaux existants utilisant cette approche aient réussi à obtenir des résultats d'état de l'art, nous observons que les modèles de langage entraînés de cette manière tendent à faire des prédictions basées sur la pertinence entre l'historique et les candidats, ignorant ainsi la nature séquentielle des systèmes de dialogue à plusieurs tours. Cela suggère que la tâche seule de sélection de réponses est insuffisante pour apprendre les dépendances temporelles entre les énoncés. À cet effet, nous proposons des stratégies de manipulation d'énoncés (Stratégies de Manipulation d'Énoncés - SME) pour résoudre ce problème. Plus précisément, les SME comprennent plusieurs stratégies (à savoir, insertion, suppression et recherche), qui aident le modèle de sélection de réponses à maintenir la cohérence du dialogue. De plus, les SME sont des méthodes auto-supervisées qui ne nécessitent pas d'annotation supplémentaire et peuvent donc être facilement intégrées aux approches existantes. Une évaluation extensive réalisée dans plusieurs langues et avec différents modèles montre que les SME sont très efficaces pour enseigner la cohérence du dialogue, ce qui permet aux modèles d'améliorer considérablement l'état de l'art sur plusieurs jeux de données benchmarks publics.