Ein Zeichenbasiertes Dekodiermodell ohne explizite Segmentierung für neuronale maschinelle Übersetzung

Die bestehenden maschinellen Übersetzungssysteme, sei es phrasenbasierte oder neuronale Systeme, haben sich fast ausschließlich auf wortbasierte Modelle mit expliziter Segmentierung gestützt. In dieser Arbeit stellen wir eine grundlegende Frage: Können neuronale maschinelle Übersetzungssysteme eine Zeichenkette ohne jede explizite Segmentierung generieren? Um diese Frage zu beantworten, bewerten wir ein auf Aufmerksamkeit basierendes Encoder-Decoder-Modell mit einem subwortbasierten Encoder und einem zeichenbasierten Decoder anhand von vier Sprachpaaren – En-Cs, En-De, En-Ru und En-Fi – unter Verwendung der parallelen Korpora aus WMT'15. Unsere Experimente zeigen, dass die Modelle mit einem zeichenbasierten Decoder in allen vier Sprachpaaren diejenigen mit einem subwortbasierten Decoder übertrumpfen. Darüber hinaus übertreffen die Ensemble-Modelle mit einem zeichenbasierten Decoder die besten nicht-neuronalen maschinellen Übersetzungssysteme bei den Sprachpaaren En-Cs, En-De und En-Fi und erzielen vergleichbare Ergebnisse bei En-Ru.