Globale visuelle Merkmale in aufmerksamkeitsbasierte neuronale Maschinübersetzung integrieren

Wir stellen mehrmodale, aufmerksamkeitsbasierte neuronale Übersetzungsmodelle (NMT) vor, die visuelle Merkmale in verschiedene Teile sowohl des Encoders als auch des Decoders integrieren. Wir nutzen globale Bildmerkmale, die mit Hilfe eines vortrainierten Faltungsneuronalen Netzes extrahiert wurden, und integrieren sie (i) als Wörter im Quellsatz, (ii) zur Initialisierung des Encoder-Versteckzustands und (iii) als zusätzliche Daten zur Initialisierung des Decoder-Versteckzustands. In unseren Experimenten bewerten wir, wie diese verschiedenen Strategien zur Integration globaler Bildmerkmale sich vergleichen und welche von ihnen am besten abschneiden. Wir untersuchen auch den Einfluss, den das Hinzufügen synthetischer mehrmodaler, mehrsprachiger Daten hat, und stellen fest, dass die zusätzlichen Daten einen positiven Effekt auf mehrmodale Modelle haben. Wir berichten über neue Stand der Technik-Ergebnisse und unsere besten Modelle verbessern signifikant ein vergleichbares phrasenbasiertes statistisches Übersetzungsmodell (PBSMT), das auf dem Multi30k-Datensatz trainiert wurde, nach allen evaluierten Metriken. Nach bestem Wissen ist es das erste Mal, dass ein rein neuronales Modell bei allen evaluierten Metriken auf diesem Datensatz signifikant besser abschneidet als ein PBSMT-Modell.