BPE-Dropout: Einfach und effektiv für die Subword-Regularisierung

Die Subwortsegmentierung wird weithin eingesetzt, um das Problem offener Vokabulare in der maschinellen Übersetzung anzugehen. Der dominierende Ansatz zur Subwortsegmentierung ist die Byte-Pair-Encoding-(BPE)-Methode, die die häufigsten Wörter unverändert lässt, während seltene Wörter in mehrere Tokens aufgeteilt werden. Obwohl mehrere mögliche Segmentierungen eines Wortes selbst bei identischem Vokabular existieren können, führt BPE zu eindeutigen Segmentierungssequenzen; dies kann das Modell daran hindern, die Kompositionseigenschaften von Wörtern besser zu lernen und robust gegenüber Segmentierungsfehlern zu sein. Bisher war die einzige Möglichkeit, diese Unzulänglichkeit von BPE – ihre deterministische Natur – zu überwinden, die Entwicklung eines alternativen Subwortsegmentierungsverfahrens (Kudo, 2018). Im Gegensatz dazu zeigen wir, dass BPE selbst die Fähigkeit besitzt, mehrere Segmentierungen desselben Wortes zu erzeugen. Wir führen BPE-Dropout ein – eine einfache und effektive Methode zur Subwort-Regularisierung, die auf herkömmlichem BPE basiert und mit diesem kompatibel ist. BPE-Dropout stochastisch verfälscht den Segmentierungsprozess von BPE, wodurch innerhalb desselben festen BPE-Rahmens mehrere Segmentierungen generiert werden können. Die Verwendung von BPE-Dropout während des Trainings und der standardmäßigen BPE-Methode während der Inferenz verbessert die Übersetzungsqualität um bis zu 3 BLEU im Vergleich zu BPE und um bis zu 0,9 BLEU im Vergleich zur vorherigen Subwort-Regularisierung.