TransferTransfo : Une approche d'apprentissage par transfert pour les agents conversationnels basés sur les réseaux de neurones

Nous présentons une nouvelle approche pour les systèmes de dialogue génératifs pilotés par les données (par exemple, les chatbots) appelée TransferTransfo, qui combine un schéma d'entraînement basé sur le transfert d'apprentissage et un modèle Transformer à haute capacité. L'ajustement fin est effectué en utilisant un objectif multi-tâches qui combine plusieurs tâches de prédiction non supervisées. Le modèle ajusté finalement montre des améliorations significatives par rapport aux modèles conversationnels end-to-end actuels comme les séquences à séquences augmentées par la mémoire et les modèles de recherche d'information. Sur le jeu de données privé PERSONA-CHAT du Défi d'Intelligence Conversationnelle 2, cette approche obtient un nouveau niveau d'excellence, avec respectivement des métriques de perplexité, Hits@1 et F1 de 16,28 (amélioration absolue de 45 %), 80,7 (amélioration absolue de 46 %) et 19,5 (amélioration absolue de 20 %).