Construction de modèles d'inférence séquentielle pour la sélection de réponses en bout à bout

Ce document présente un modèle de sélection de réponse de bout en bout pour la première piste du 7ème Défi sur les Technologies des Systèmes de Dialogue (DSTC7). Cette tâche se concentre sur la sélection de l'utterance suivante correcte parmi un ensemble de candidats, à partir d'une conversation partielle. Nous proposons un réseau neuronal de bout en bout basé sur le modèle d'inférence séquentielle amélioré (ESIM) pour cette tâche. Notre modèle proposé diffère du modèle ESIM original sous quatre aspects principaux. Premièrement, une nouvelle méthode de représentation des mots est adoptée, combinant les plongements lexicaux pré-entraînés généraux avec ceux estimés sur l'ensemble d'entraînement spécifique à la tâche, afin de relever le défi des mots hors vocabulaire (OOV). Deuxièmement, un encodeur récurrent hiérarchique attentif (AHRE) est conçu, capable d'encoder les phrases hiérarchiquement et de générer des représentations plus descriptives par agrégation. Troisièmement, une nouvelle méthode de pooling est utilisée, combinant le pooling multidimensionnel et le pooling d'état final, au lieu de la simple combinaison du max pooling et du average pooling dans l'ESIM original. Enfin, une couche de modification est ajoutée avant la couche softmax pour souligner l'importance de l'utterance finale dans le contexte pour la sélection de la réponse. Dans les résultats d'évaluation publiés du DSTC7, notre méthode proposée s'est classée deuxième sur l'ensemble Ubuntu et troisième sur l'ensemble Advising dans la sous-tâche 1 de la première piste.