Zwei neue Datensätze für die abstraktive Textzusammenfassung auf Italienisch

Die Textzusammenfassung zielt darauf ab, eine kurze Zusammenfassung zu erstellen, die relevante Teile eines gegebenen Textes enthält. Aufgrund des Mangels an Daten für abstraktive Zusammenfassung auf sprachlich unterversorgten Sprachen wie Italienisch stellen wir zwei neue, originelle Datensätze vor, die aus zwei italienischen Nachrichtenwebsites mit mehrsätzigem Zusammenfassungstext und den entsprechenden Artikeln sowie aus einem Datensatz gewonnen wurden, der durch maschinelle Übersetzung eines spanischen Zusammenfassungsdatensatzes entstanden ist. Diese beiden Datensätze sind derzeit die einzigen verfügbaren im Italienischen für diese Aufgabe. Um die Qualität dieser beiden Datensätze zu bewerten, haben wir sie verwendet, um ein T5-base-Modell und ein mBART-Modell zu trainieren, wobei beide Modelle gute Ergebnisse erzielten. Um die erhaltenen Ergebnisse noch besser bewerten zu können, haben wir außerdem dieselben Modelle, die auf automatisch übersetzten Datensätzen trainiert wurden, mit den automatisch übersetzten Zusammenfassungen im gleichen Trainingslanguage verglichen, wodurch sich die Überlegenheit der Modelle, die aus den vorgeschlagenen Datensätzen hervorgegangen sind, deutlich zeigte.