vor 11 Tagen
Datensatz für die automatische Zusammenfassung russischer Nachrichten
Ilya Gusev

Abstract
Die automatische Textzusammenfassung wurde in einer Vielzahl von Domänen und Sprachen untersucht. Dies gilt jedoch nicht für die russische Sprache. Um dieses Defizit zu beheben, stellen wir Gazeta vor – den ersten Datensatz für die Zusammenfassung russischer Nachrichten. Wir beschreiben die Eigenschaften dieses Datensatzes und benchmarken mehrere extraktive und abstraktive Modelle. Wir zeigen, dass der Datensatz eine sinnvolle Aufgabe für Methoden der Textzusammenfassung im Russischen darstellt. Zudem belegen wir, dass das vortrainierte mBART-Modell für die russische Textzusammenfassung nützlich ist.