BART-IT: Ein effizienter sequenz-zu-Sequenz-Modell für die Zusammenfassung italienischer Texte
Die Einführung von auf Aufmerksamkeit basierenden Architekturen hat zu erheblichen Leistungssteigerungen bei neuronalen sequenz-zu-Sequenz-Modellen für die Textzusammenfassung geführt. Obwohl diese Modelle sich bei der Zusammenfassung englischsprachiger Dokumente als wirksam erwiesen haben, ist ihre Übertragbarkeit auf andere Sprachen begrenzt, was weiteren Verbesserungsspielraum offenlässt. In diesem Paper stellen wir BART-IT vor, ein sequenz-zu-Sequenz-Modell, das auf der BART-Architektur basiert und speziell auf die italienische Sprache zugeschnitten ist. Das Modell wird zunächst auf einer großen Korpus italienischsprachiger Texte vortrainiert, um sprachspezifische Merkmale zu erlernen, und anschließend an mehreren etablierten Benchmark-Datensätzen für abstraktive Zusammenfassung fine-tuned. Die experimentellen Ergebnisse zeigen, dass BART-IT trotz einer deutlich geringeren Anzahl an Parametern andere state-of-the-art-Modelle hinsichtlich der ROUGE-Scores übertrifft. Die Nutzung von BART-IT kann die Entwicklung interessanter Anwendungen im Bereich der natürlichen Sprachverarbeitung (NLP) für die italienische Sprache fördern. Neben der Veröffentlichung des Modells an die Forschungsgemeinschaft zur Förderung weiterer Forschung und Anwendungen diskutieren wir auch die ethischen Implikationen, die mit der Nutzung abstraktiver Zusammenfassungsmodelle verbunden sind.