Neuronale Maschinelle Übersetzung in Linearer Zeit

Wir stellen ein neues neuronales Netzwerk zur Verarbeitung von Sequenzen vor. Das ByteNet ist ein eindimensionales Faltungsneuronales Netzwerk (Convolutional Neural Network), das aus zwei Teilen besteht: einem zum Kodieren der Quellsequenz und einem zum Dekodieren der Zielsequenz. Die beiden Netzwerkteile sind durch die Schichtung des Decoders über dem Encoder verbunden, wobei die zeitliche Auflösung der Sequenzen beibehalten wird. Um die unterschiedlichen Längen von Quell- und Zielsequenz zu berücksichtigen, führen wir einen effizienten Mechanismus ein, durch den der Decoder dynamisch über die Darstellung des Encoders entfaltet wird. Das ByteNet verwendet Dilation in den Faltungsschichten, um sein Rezeptives Feld zu erweitern. Das resultierende Netzwerk hat zwei Kernmerkmale: es arbeitet in linearer Zeit bezogen auf die Länge der Sequenzen und es vermeidet eine übermäßige Memorierung. Der ByteNet-Decoder erreicht Spitzenleistungen im Zeichen-basierten Sprachmodellieren und übertreffen dabei die bisher besten Ergebnisse, die mit rekurrenten Netzwerken erzielt wurden. Auch bei der Zeichen-zu-Zeichen-Maschinellen Übersetzung (Character-to-Character Machine Translation) auf der englisch-deutschen WMT-Übersetztaufgabe erreicht das ByteNet Spitzenleistungen, indem es vergleichbare neuronale Übersetzungsmodelle basierend auf rekurrenten Netzwerken mit Aufmerksamkeitspooling (attentional pooling), die in quadratischer Zeit laufen, übertrifft. Wir stellen fest, dass die latente Ausrichtungsstruktur in den Darstellungen die erwartete Ausrichtung zwischen den Token widerspiegelt.