Guidage de l'attention dans les modèles séquence-à-séquence pour la prédiction des actes de dialogue

La tâche de prédiction des actes dialogiques (DA) à partir de dialogues conversationnels constitue un élément clé dans le développement des agents conversationnels. Une prédiction précise des DA exige une modélisation fine à la fois de la conversation elle-même et des dépendances globales entre les étiquettes. Nous exploitons les approches seq2seq largement utilisées dans la traduction automatique neurale (NMT) afin d’améliorer la modélisation de la séquentialité des étiquettes. Les modèles seq2seq sont connus pour leur capacité à apprendre des dépendances globales complexes, tandis que les approches actuelles basées sur des champs aléatoires conditionnels linéaires (CRF) ne modélisent que des dépendances locales entre étiquettes. Dans ce travail, nous introduisons un modèle seq2seq spécifiquement conçu pour la classification des actes dialogiques, intégrant : un encodeur hiérarchique, un nouveau mécanisme d’attention guidée, ainsi qu’une recherche par faisceau (beam search) appliquée aussi bien à l’entraînement qu’à l’inférence. Contrairement aux états de l’art, notre modèle ne nécessite pas de caractéristiques manuellement conçues et est entraîné de bout en bout. De plus, l’approche proposée atteint un score d’exactitude inégalé de 85 % sur le corpus SwDA, ainsi qu’un score d’exactitude au niveau de l’état de l’art de 91,6 % sur le corpus MRDA.