HyperAIHyperAI
vor 2 Monaten

TLDR9+: Eine umfangreiche Ressource für die extrem kurze Zusammenfassung von Social-Media-Beiträgen

Sajad Sotudeh; Hanieh Deilamsalehy; Franck Dernoncourt; Nazli Goharian
TLDR9+: Eine umfangreiche Ressource für die extrem kurze Zusammenfassung von Social-Media-Beiträgen
Abstract

Kürzliche Modelle zur Entwicklung von Zusammenfassungssystemen bestehen aus Millionen von Parametern und die Modellleistung hängt stark von der Fülle der Trainingsdaten ab. Während die meisten existierenden Zusammenfassungskorpora Daten im Umfang von Tausenden bis einer Million enthalten, ist die Erstellung von groß angelegten Zusammenfassungsdatensätzen mit mehreren Millionen Instanzen bisher wenig erforscht. Praktisch gesehen sind mehr Daten besser geeignet, um die Trainingsmuster auf unbekannte Daten zu verallgemeinern. In dieser Arbeit stellen wir TLDR9+ vor – einen groß angelegten Zusammenfassungsdatensatz – der über 9 Millionen Trainingsinstanzen enthält, die aus dem Reddit-Diskussionsforum extrahiert wurden (https://github.com/sajastu/reddit_collector). Dieser Datensatz wurde speziell für extreme Zusammenfassungen gesammelt (d.h., das Generieren einer einzeiligen Zusammenfassung mit hoher Kompression und Abstraktion) und ist mehr als doppelt so groß wie der bisher vorgeschlagene Datensatz. Wir gehen einen Schritt weiter und erstellen mit Hilfe menschlicher Annotationen einen feingranularen Datensatz, indem wir hochwertige Instanzen aus TLDR9+ auswählen und diesen Datensatz TLDRHQ nennen. Wir evaluieren verschiedene state-of-the-art-Zusammenfassungsmodelle auf unseren vorgeschlagenen Datensätzen.请注意,"state-of-the-art" 是一个常用的英语术语,在德语中通常保留原样,因此在翻译时没有进行转换。

TLDR9+: Eine umfangreiche Ressource für die extrem kurze Zusammenfassung von Social-Media-Beiträgen | Neueste Forschungsarbeiten | HyperAI