Neu betrachtung der nicht-englischen Textvereinfachung: Ein einheitlicher multilingualer Benchmark

Neuere Fortschritte bei hochwertigen, großskaligen englischsprachigen Ressourcen haben die Grenzen der Forschung im Bereich der automatischen Textvereinfachung (Automatic Text Simplification, ATS) für Englisch vorangetrieben. Aufgrund des Mangels an einer vielfältigen Evaluierungsbenchmarks, die komplexe-einfache Satzpaare in vielen Sprachen abdeckt, wurden hingegen weniger Arbeiten zu mehrsprachiger Textvereinfachung unternommen. In diesem Artikel stellen wir den MultiSim-Benchmark vor, eine Sammlung aus 27 Ressourcen in 12 unterschiedlichen Sprachen, die über 1,7 Millionen Paare aus komplexen und einfachen Sätzen umfasst. Dieser Benchmark soll die Forschung zur Entwicklung effektiverer mehrsprachiger Textvereinfachungsmodelle und Evaluationsmetriken fördern. Unsere Experimente mit MultiSim unter Verwendung vortrainierter mehrsprachiger Sprachmodelle zeigen ermutigende Leistungssteigerungen durch mehrsprachiges Training in Nicht-Englisch-Szenarien. Wir beobachten eine starke Leistung des Russischen bei zero-shot cross-lingualen Transfer auf Sprachen mit geringen Ressourcen. Zudem zeigen wir, dass mit wenigen Beispielen (few-shot prompting) mit BLOOM-176b eine Qualität erreicht wird, die mit Referenzvereinfachungen vergleichbar ist und in den meisten Sprachen sogar finetunete Modelle übertrifft. Diese Ergebnisse bestätigen wir durch menschliche Evaluation.