Systematische Untersuchung der Redundanzreduzierung beim Zusammenfassen langer Dokumente

Unsere Analyse großer Zusammenfassungsdatensätze zeigt, dass Redundanz ein äußerst gravierendes Problem darstellt, wenn lange Dokumente zusammengefasst werden. Dennoch wurde die Reduzierung von Redundanz in der neuronalen Zusammenfassung bisher nicht ausreichend untersucht. In dieser Arbeit untersuchen und vergleichen wir systematisch verschiedene Ansätze zur Behandlung von Redundanz bei der Zusammenfassung langer Dokumente. Konkret gliedern wir die bestehenden Methoden nach dem Zeitpunkt und der Art, wie Redundanz berücksichtigt wird, in Kategorien. Anschließend schlagen wir innerhalb dieses Kategorienrahmens drei zusätzliche Methoden vor, die auf allgemeine und flexible Weise zwischen Nicht-Redundanz und Relevanz ausbalancieren. In einer Reihe von Experimenten zeigen wir, dass unsere vorgeschlagenen Methoden auf zwei wissenschaftlichen Datensätzen, Pubmed und arXiv, die derzeit beste Leistung hinsichtlich der ROUGE-Scores erzielen, während gleichzeitig eine signifikante Reduzierung von Redundanz erreicht wird.