HyperAIHyperAI
vor 2 Monaten

CiteSum: Zitier-Text-gesteuerte wissenschaftliche Extremzusammenfassung und Domänenanpassung mit begrenzter Überwachung

Yuning Mao; Ming Zhong; Jiawei Han
CiteSum: Zitier-Text-gesteuerte wissenschaftliche Extremzusammenfassung und Domänenanpassung mit begrenzter Überwachung
Abstract

Die wissenschaftliche extrem kurze Zusammenfassung (TLDR) strebt danach, ultrakurze Zusammenfassungen von wissenschaftlichen Artikeln zu erstellen. Frühere Bemühungen zur Erstellung von wissenschaftlichen TLDR-Datensätzen scheiterten an der hohen Anforderung an menschliche Annotation und fachspezifisches Wissen. In dieser Arbeit schlagen wir einen einfachen, aber effektiven Ansatz vor, um TLDR-Zusammenfassungen für wissenschaftliche Arbeiten automatisch aus ihren Zitier"texten zu extrahieren. Basierend auf dem vorgeschlagenen Ansatz erstellen wir einen neuen Benchmark CiteSum ohne menschliche Annotation, der etwa 30-mal größer ist als der bisherige menschlich erfasste Datensatz SciTLDR. Wir führen eine umfassende Analyse von CiteSum durch, untersuchen seine Datencharakteristika und etablieren starke Baseline-Methoden. Des Weiteren zeigen wir die Nützlichkeit von CiteSum, indem wir Modelle, die auf CiteSum vortrainiert wurden (CITES genannt), mit begrenzter Überwachung auf neue Aufgaben und Domänen anpassen. Für die wissenschaftliche extrem kurze Zusammenfassung übertrifft CITES die meisten vollständig überwachten Methoden auf SciTLDR ohne jede Feinabstimmung und erreicht den aktuellen Stand der Technik mit nur 128 Beispielen. Für die extrem kurze Zusammenfassung von Nachrichten verbessert CITES die Ergebnisse des Basismodells (das nicht auf CiteSum vortrainiert wurde) signifikant auf XSum, z.B. +7,2 ROUGE-1 Leistung bei zero-shot und den aktuellen Stand der Technik bei few-shot. Bei der Generierung von Nachrichtentiteln erzielt CITES die besten Ergebnisse unter den unüberwachten und zero-shot Methoden auf Gigaword. Unser Datensatz und unser Code sind unter https://github.com/morningmoni/CiteSum abrufbar.

CiteSum: Zitier-Text-gesteuerte wissenschaftliche Extremzusammenfassung und Domänenanpassung mit begrenzter Überwachung | Neueste Forschungsarbeiten | HyperAI