LCSTS: Ein großes Datensatz für die Zusammenfassung kurzer chinesischer Texte

Die automatische Textzusammenfassung wird weitgehend als ein äußerst schwieriges Problem angesehen, teilweise aufgrund des Mangels an umfangreichen Datensätzen für Textzusammenfassungen. Aufgrund der erheblichen Herausforderungen bei der Erstellung von groß angelegten Zusammenfassungen für vollständige Texte stellen wir in dieser Arbeit einen großen Korpus vor, der aus einem Datensatz für die Zusammenfassung kurzer chinesischer Texte erstellt wurde, der vom chinesischen Mikroblogging-Portal Sina Weibo stammt und der Öffentlichkeit zur Verfügung gestellt wurde {http://icrc.hitsz.edu.cn/Article/show/139.html}. Dieser Korpus besteht aus über 2 Millionen echten kurzen chinesischen Texten, denen jeweils von den Autoren kurze Zusammenfassungen beigefügt wurden. Wir haben außerdem die Relevanz von 10.666 kurzen Zusammenfassungen manuell mit ihren entsprechenden kurzen Texten annotiert. Basierend auf diesem Korpus führen wir ein rekurrentes neuronales Netzwerk (Recurrent Neural Network) zur Generierung von Zusammenfassungen ein und erzielen vielversprechende Ergebnisse, die nicht nur die Nützlichkeit des vorgestellten Korpus für Forschungen zur Zusammenfassung kurzer Texte zeigen, sondern auch eine Referenzlinie für weitere Arbeiten zu diesem Thema bieten.