HyperAIHyperAI
vor 2 Monaten

Sizilianischer Übersetzer: Ein Rezept für NMT mit geringen Ressourcen

Eryk Wdowiak
Sizilianischer Übersetzer: Ein Rezept für NMT mit geringen Ressourcen
Abstract

Mit 17.000 übersetzten Sätzen aus Sizilianisch-Englisch entwickelte Arba Sicula den ersten neuronalen Maschinentranslator für die sizilianische Sprache. Unter Verwendung kleiner Subwörter-Vokabulare trainierten wir kleine Transformer-Modelle mit hohen Dropout-Parametern und erreichten BLEU-Werte in den oberen Zwanzigern. Anschließend ergänzten wir unseren Datensatz durch Rückübersetzung (backtranslation) und mehrsprachige Übersetzung und steigerten unsere Werte in die mittleren Dreißiger. Unser Erfolg ist auch darauf zurückzuführen, dass wir theoretische Informationen in unseren Datensatz einbezogen haben. Vor dem Training veränderten wir das Subwörter-Vokabular so, dass es die Endungen (desinences) widerspiegelt, die man in einem Lehrbuch findet. Zudem integrierten wir Übungen aus Lehrbüchern in unseren Datensatz.

Sizilianischer Übersetzer: Ein Rezept für NMT mit geringen Ressourcen | Neueste Forschungsarbeiten | HyperAI