HyperAIHyperAI
vor 11 Tagen

GenCompareSum: Ein hybrider, unsupervisierter Zusammenfassungsansatz basierend auf Relevanz

{Sophia Ananiadou, Qianqian Xie, Jennifer Bishop}
GenCompareSum: Ein hybrider, unsupervisierter Zusammenfassungsansatz basierend auf Relevanz
Abstract

Textzusammenfassung (TS) ist eine zentrale Aufgabe im Bereich der natürlichen Sprachverarbeitung (NLP). Vortrainierte Sprachmodelle (PLMs) wurden eingesetzt, um die Leistungsfähigkeit der TS zu verbessern. Doch PLMs sind durch ihren Bedarf an gelabelten Trainingsdaten sowie durch ihre Aufmerksamkeitsmechanismen eingeschränkt, was sie oft ungeeignet für die Verarbeitung langer Dokumente macht. Um diesem Problem zu begegnen, schlagen wir einen hybriden, unsupervisierten Ansatz vor, der sowohl abstraktive als auch extraktive Komponenten kombiniert. Dabei durchlaufen wir ein Dokument schrittweise und generieren bedeutungsvolle Textfragmente, die dessen zentrale Punkte repräsentieren. Anschließend wählen wir die wichtigsten Sätze des Dokuments aus, indem wir die Sätze mit der höchsten Ähnlichkeit zu den generierten Texten auswählen – die Ähnlichkeit wird mittels BERTScore berechnet. Wir evaluieren die Wirksamkeit der Generierung und Nutzung bedeutungsvoller Textfragmente zur Steuerung der extraktiven Zusammenfassung an Dokumenten aus den biomedizinischen und allgemein wissenschaftlichen Bereichen. Wir vergleichen die Leistung bei langen und kurzen Dokumenten unter Verwendung verschiedener generativer Textmodelle, die auf die Erzeugung relevanter Abfragen oder Dokumentüberschriften fine-tuned wurden. Unser hybrider Ansatz erzielt eine bessere Leistung als bestehende unsupervisierte Methoden sowie als state-of-the-art supervisierte Ansätze – und das, ohne dass eine große Menge an gelabelten Trainingsdaten erforderlich ist.

GenCompareSum: Ein hybrider, unsupervisierter Zusammenfassungsansatz basierend auf Relevanz | Neueste Forschungsarbeiten | HyperAI