Eine abstraktive Textzusammenfassungstechnik unter Verwendung eines Transformer-Modells mit Selbst-Attention-Mechanismus
Die Erstellung einer zusammenfassenden Version eines Textdokuments, die dennoch präzise Bedeutung vermittelt, ist eine äußerst komplexe Aufgabe im Bereich des Natural Language Processing (NLP). Die abstrakte Textzusammenfassung (Abstract Text Summarization, ATS) bezeichnet den Prozess, bei dem Fakten aus Quell-Sätzen extrahiert und zu kompakten, informativen Darstellungen zusammengefasst werden, wobei Inhalt und Intention des ursprünglichen Textes gewahrt bleiben. Die manuelle Zusammenfassung großer Textmengen ist für Menschen zeitaufwendig und herausfordernd. Daher ist die Textzusammenfassung zu einem spannenden Forschungsfeld im NLP geworden. In diesem Forschungsbeitrag wird ein ATS-Modell vorgestellt, das auf der Transformer-Technologie mit Selbst-Attention-Mechanismus (T2SAM) basiert. Der Selbst-Attention-Mechanismus wird in den Transformer integriert, um das Problem der Kernreferenz (Coreference) in Texten zu lösen, was die Textverstehbarkeit des Systems verbessert. Das vorgeschlagene T2SAM-Modell steigert die Leistungsfähigkeit der Textzusammenfassung signifikant. Es wurde auf dem Inshorts-News-Datensatz in Kombination mit dem DUC-2004-Shared-Tasks-Datensatz trainiert. Die Leistung des vorgeschlagenen Modells wurde mittels der ROUGE-Metriken evaluiert und zeigte eine Überlegenheit gegenüber bestehenden State-of-the-Art-Baselines. Das Modell reduzierte den Trainingsverlust von 10,3058 (am Anfang) auf 1,8220 innerhalb von 30 Epochen und erreichte eine Modellgenauigkeit von 48,50 % F1-Score sowohl auf dem Inshorts- als auch auf dem DUC-2004-News-Datensatz.