Un Répertoire de Jeux de Données Conversationnels

Les progrès en apprentissage automatique (machine learning) sont souvent impulsés par la disponibilité de grands ensembles de données et par des métriques d'évaluation cohérentes permettant de comparer les approches de modélisation. Dans cette optique, nous présentons un dépôt de jeux de données conversationnels comprenant des centaines de millions d'exemples, ainsi qu'une procédure d'évaluation standardisée pour les modèles de sélection de réponses conversationnelles utilisant la « précision 1 sur 100 » (« 1-of-100 accuracy »). Le dépôt contient des scripts qui permettent aux chercheurs de reproduire les jeux de données standards ou d'adapter les étapes de prétraitement et de filtrage des données à leurs besoins. Nous introduisons et évaluons plusieurs lignes de base compétitives pour la sélection de réponses conversationnelles, dont les implémentations sont partagées dans le dépôt, ainsi qu'un modèle d'encodeur neuronal formé sur l'ensemble du jeu d'entraînement.