HyperAIHyperAI
vor 17 Tagen

Ein Divide-and-Conquer-Ansatz zur Zusammenfassung langer Dokumente

Alexios Gidiotis, Grigorios Tsoumakas
Ein Divide-and-Conquer-Ansatz zur Zusammenfassung langer Dokumente
Abstract

Wir stellen eine neuartige Divide-and-Conquer-Methode für die neuronale Zusammenfassung langer Dokumente vor. Unsere Methode nutzt die diskursiven Strukturen des Dokuments aus und verwendet Satzähnlichkeit, um das Problem in eine Ensemble von kleineren Zusammenfassungsproblemen zu zerlegen. Insbesondere zerlegen wir ein langes Dokument und seine Zusammenfassung in mehrere Quell-Ziel-Paare, die zur Ausbildung eines Modells verwendet werden, das lernt, jeweils einzelne Abschnitte des Dokuments separat zusammenzufassen. Diese Teilzusammenfassungen werden anschließend kombiniert, um eine endgültige vollständige Zusammenfassung zu erzeugen. Mit diesem Ansatz können wir das Problem der Zusammenfassung langer Dokumente in kleinere und einfachere Teilprobleme zerlegen, die Rechenkomplexität reduzieren und gleichzeitig mehr Trainingsbeispiele generieren, die im Vergleich zum herkömmlichen Ansatz weniger Rauschen in den Zielzusammenfassungen aufweisen. Wir zeigen, dass dieser Ansatz in Kombination mit verschiedenen Zusammenfassungsmodellen – einschließlich sequenz-zu-Sequenz RNNs und Transformers – zu einer verbesserten Zusammenfassungsleistung führen kann. Unsere besten Modelle erreichen Ergebnisse, die mit dem Stand der Technik auf zwei öffentlich verfügbaren Datensätzen akademischer Artikel vergleichbar sind.