HyperAIHyperAI
vor 7 Tagen

Deterministische reversible Datenaugmentation für neuronale Maschinenübersetzung

Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo
Deterministische reversible Datenaugmentation für neuronale Maschinenübersetzung
Abstract

Datenaugmentierung ist eine effektive Methode, um Korpora im Bereich der maschinellen Übersetzung zu diversifizieren. Allerdings können frühere Ansätze aufgrund irreversibler Operationen und zufälliger Subwort-Auswahlverfahren semantische Inkonsistenzen zwischen ursprünglichen und augmentierten Daten erzeugen. Um sowohl symbolisch vielfältige als auch semantisch konsistente Augmentierungsdaten zu generieren, stellen wir Deterministic Reversible Data Augmentation (DRDA) vor – eine einfache, aber wirksame Methode zur Datenaugmentierung für neuronale maschinelle Übersetzung. DRDA nutzt deterministische Segmentierungen und umkehrbare Operationen, um mehrschalige Subwort-Repräsentationen zu erzeugen, und zieht diese mit multiplen Sichtweisen enger zusammen. Ohne zusätzliche Korpora oder Modelländerungen benötigt, übertrifft DRDA starke Baselines bei mehreren Übersetzungsaufgaben deutlich (bis zu 4,3 BLEU-Punkte mehr als Transformer) und zeigt eine gute Robustheit auf rauschbehafteten, ressourcenarmen und cross-domain-Datensätzen.

Deterministische reversible Datenaugmentation für neuronale Maschinenübersetzung | Neueste Forschungsarbeiten | HyperAI