HyperAIHyperAI
vor 2 Monaten

Ein großes Korpus für die Entwirrung von Konversationen

Jonathan K. Kummerfeld; Sai R. Gouravajhala; Joseph Peper; Vignesh Athreya; Chulaka Gunasekara; Jatin Ganhotra; Siva Sankalp Patel; Lazaros Polymenakos; Walter S. Lasecki
Ein großes Korpus für die Entwirrung von Konversationen
Abstract

Das Aufspalten von miteinander vermischten Konversationen in einem einzelnen Nachrichtenstrom ist eine schwierige Aufgabe, die durch den Mangel an umfangreichen manuell annotierten Datensätzen weiter erschwert wird. Wir haben einen neuen Datensatz mit 77.563 manuell annotierten Nachrichten erstellt, die mit Antwortstrukturgraphen versehen sind, die sowohl Konversationen aufspalten als auch deren interne Struktur definieren. Unser Datensatz ist 16-mal größer als alle bisher veröffentlichten Datensätze zusammen und der erste, der die Schlichtung von Annotierungsstreitigkeiten (adjudication of annotation disagreements) sowie Kontext beinhaltet. Mit Hilfe unserer Daten haben wir frühere Arbeiten neu überprüft und festgestellt, dass 80 % der Konversationen in einem weit verbreiteten Dialogkorpus entweder Nachrichten fehlen oder zusätzliche Nachrichten enthalten. Unsere manuell annotierten Daten bieten die Möglichkeit, robuste datengestützte Methoden für das Aufspalten von Konversationen zu entwickeln, was den Fortschritt der Dialogforschung fördern wird.

Ein großes Korpus für die Entwirrung von Konversationen | Neueste Forschungsarbeiten | HyperAI