HyperAIHyperAI
il y a 2 mois

Un Grand Corpus pour la Détection des Conversations Entrelacées

Jonathan K. Kummerfeld; Sai R. Gouravajhala; Joseph Peper; Vignesh Athreya; Chulaka Gunasekara; Jatin Ganhotra; Siva Sankalp Patel; Lazaros Polymenakos; Walter S. Lasecki
Un Grand Corpus pour la Détection des Conversations Entrelacées
Résumé

Démêler les conversations mélangées dans un flux unique de messages est une tâche difficile, rendue encore plus complexe par le manque de grands ensembles de données annotés manuellement. Nous avons créé un nouveau jeu de données composé de 77 563 messages annotés manuellement avec des graphes de structure de réponses qui non seulement démêlent les conversations, mais définissent également leur structure interne. Notre ensemble de données est 16 fois plus grand que la somme de tous les jeux de données précédemment publiés, il est le premier à inclure l'arbitrage des désaccords d'annotation et le premier à intégrer le contexte. Nous utilisons nos données pour réexaminer les travaux antérieurs, en particulier en constatant que 80 % des conversations dans un corpus dialogique largement utilisé sont soit incomplètes, soit contiennent des messages superflus. Nos données annotées manuellement offrent une opportunité de développer des méthodes robustes basées sur les données pour le démêlage des conversations, ce qui contribuera à faire progresser la recherche en dialogue.

Un Grand Corpus pour la Détection des Conversations Entrelacées | Articles de recherche récents | HyperAI