Tu parles à moi ? Un corpus et un algorithme pour le dénouement des conversations

Lorsque plusieurs conversations ont lieu simultanément, un locuteur doit déterminer à quelle conversation appartient chaque énoncé afin de le comprendre et de lui répondre de manière appropriée. Nous appelons cette tâche la « désenchevêtrement ». Nous présentons un corpus de dialogues issus du réseau Internet Relay Chat (IRC), dans lequel les différentes conversations ont été manuellement désenchevêtrées, et évaluons la fiabilité des annotateurs. À notre connaissance, il s’agit du premier corpus de ce type dédié aux échanges en ligne. Nous proposons un modèle fondé sur la théorie des graphes pour le désenchevêtrement, utilisant des caractéristiques basées sur le discours, qui n’ont pas été auparavant appliquées à cette tâche. Les désenchevêtrements prédits par le modèle sont fortement corrélés aux annotations manuelles.