Maschinelles Übersetzen vor der Fine-Tuning für die Datensatz-zu-Text-Generierung – Eine Fallstudie im Tschechischen

Obwohl es eine umfangreiche Forschungsliteratur gibt, die sich mit Deep-Learning-Methoden für die Textgenerierung aus strukturierten Daten beschäftigt, konzentriert sich fast alles darauf ausschließlich auf die englische Sprache. In diesem Paper untersuchen wir die Wirksamkeit von maschinellen Übersetzungs-basiertem Vortraining für die Daten-zu-Text-Generierung in nicht-englischen Sprachen. Da strukturierte Daten in der Regel auf Englisch formuliert sind, beinhaltet die Textgenerierung in andere Sprachen Elemente der Übersetzung, Transliteration und Kopie – Aspekte, die bereits in neuronalen Maschinenübersetzungssystemen integriert sind. Darüber hinaus profitiert diese Aufgabe, da Daten-zu-Text-Korpora typischerweise klein sind, erheblich von Vortraining. Auf Basis unserer Experimente am Beispiel von Tschechisch, einer morphologisch komplexen Sprache, zeigen wir, dass Vortraining es ermöglicht, end-to-end-Modelle mit signifikant verbesserten Leistungen zu trainieren, wie sowohl automatische Metriken als auch menschliche Bewertungen belegen. Zudem zeigen wir, dass dieser Ansatz mehrere wünschenswerte Eigenschaften aufweist, darunter eine verbesserte Leistung bei geringen Datenmengen und Robustheit gegenüber bisher nicht gesehenen Slot-Werten.