Deterministische reversible Datenaugmentation für neuronale Maschinenübersetzung

Datenaugmentierung ist eine effektive Methode, um Korpora im Bereich der maschinellen Übersetzung zu diversifizieren. Allerdings können frühere Ansätze aufgrund irreversibler Operationen und zufälliger Subwort-Auswahlverfahren semantische Inkonsistenzen zwischen ursprünglichen und augmentierten Daten erzeugen. Um sowohl symbolisch vielfältige als auch semantisch konsistente Augmentierungsdaten zu generieren, stellen wir Deterministic Reversible Data Augmentation (DRDA) vor – eine einfache, aber wirksame Methode zur Datenaugmentierung für neuronale maschinelle Übersetzung. DRDA nutzt deterministische Segmentierungen und umkehrbare Operationen, um mehrschalige Subwort-Repräsentationen zu erzeugen, und zieht diese mit multiplen Sichtweisen enger zusammen. Ohne zusätzliche Korpora oder Modelländerungen benötigt, übertrifft DRDA starke Baselines bei mehreren Übersetzungsaufgaben deutlich (bis zu 4,3 BLEU-Punkte mehr als Transformer) und zeigt eine gute Robustheit auf rauschbehafteten, ressourcenarmen und cross-domain-Datensätzen.