HyperAIHyperAI
vor 16 Tagen

Vor-Training trifft auf Clustering: Ein hybrider extraktiver Mehrdokumenten-Zusammenfassungsmodell

{Seba Susan, Akanksha Karotia}
Abstract

In dieser Ära, in der eine große Menge an Informationen das Internet überflutet, ist die manuelle Extraktion und Verarbeitung relevanter Informationen äußerst schwierig und zeitaufwendig. Daher ist ein automatisiertes Dokumentzusammenfassungswerkzeug notwendig, um wichtige Informationen aus einem Satz von Dokumenten mit ähnlichen oder verwandten Themen zu extrahieren. Die Multi-Dokument-Zusammenfassung ermöglicht die Gewinnung von wichtigen und relevanten Inhalten aus mehreren Dokumenten unter gleichzeitiger Minimierung von Redundanz. In dieser Studie wird ein System zur Textzusammenfassung mehrerer Dokumente unter Verwendung eines unüberwachten extraktiven Ansatzes entwickelt. Das vorgeschlagene Modell kombiniert zwei Lernparadigmen: das vortrainierte Transformer-Modell T5 und den K-Means-Clustering-Algorithmus. Die Experimente werden anhand der Benchmark-Nachrichtenkorpus-Datenbank Document Understanding Conference (DUC2004) durchgeführt. Zur Bewertung der Leistungsfähigkeit des vorgeschlagenen Ansatzes werden die ROUGE-Evaluationsmetriken verwendet. Die Ergebnisse bestätigen, dass das vorgeschlagene Modell im Vergleich zu bestehenden unüberwachten State-of-the-Art-Verfahren eine deutlich verbesserte Leistung zeigt.