Un Grand Corpus pour la Détection des Conversations Entrelacées

Démêler les conversations mélangées dans un flux unique de messages est une tâche difficile, rendue encore plus complexe par le manque de grands ensembles de données annotés manuellement. Nous avons créé un nouveau jeu de données composé de 77 563 messages annotés manuellement avec des graphes de structure de réponses qui non seulement démêlent les conversations, mais définissent également leur structure interne. Notre ensemble de données est 16 fois plus grand que la somme de tous les jeux de données précédemment publiés, il est le premier à inclure l'arbitrage des désaccords d'annotation et le premier à intégrer le contexte. Nous utilisons nos données pour réexaminer les travaux antérieurs, en particulier en constatant que 80 % des conversations dans un corpus dialogique largement utilisé sont soit incomplètes, soit contiennent des messages superflus. Nos données annotées manuellement offrent une opportunité de développer des méthodes robustes basées sur les données pour le démêlage des conversations, ce qui contribuera à faire progresser la recherche en dialogue.