vor 2 Monaten
Diskurst Kohärenz in der Wildnis: Ein Datensatz, eine Bewertung und Methoden
Alice Lai; Joel Tetreault

Abstract
Bislang wurde sehr wenig Arbeit geleistet, um Methoden zur Bewertung der Diskurskohärenz an realen Daten zu untersuchen. Um dies zu beheben, präsentieren wir ein neues Korpus von realen Texten (GCDC) sowie die erste umfangreiche Evaluierung führender Diskurskohärenzalgorithmen. Wir zeigen, dass neuronale Modelle, darunter zwei, die wir hier einführen (SentAvg und ParSeq), tendenziell die besten Ergebnisse erzielen. Wir analysieren diese Leistungsunterschiede und diskutieren Muster, die wir in Texten mit geringer Kohärenz in vier Bereichen beobachtet haben.