Doppelt-Aufmerksamer Decoder für multimodale neuronale Maschinelle Übersetzung

Wir stellen ein multimodales neuronales Maschinentranslationsmodell vor, bei dem ein doppelt aufmerksamer Decoder räumliche visuelle Merkmale, die mithilfe vortrainierter Faltungsneuralnetze gewonnen werden, natürlicherweise in den Prozess der Bildbeschreibung und Übersetzung integriert. Unser Decoder lernt während der Generierung von Wörtern in der Zielsprache, sowohl zu Quellsprachwörtern als auch zu Teilen eines Bildes unabhängig durch zwei getrennte Aufmerksamkeitsmechanismen aufzumerken. Wir feststellen, dass unser Modell nicht nur domänenspezifische multimodale Daten effizient nutzen kann, die durch Rückübersetzung erzeugt wurden, sondern auch große Textkorpora aus allgemeinen Bereichen, die ausschließlich für Maschinelle Übersetzung (MT) konzipiert sind. Darüber hinaus berichten wir über Stand-der-Technik-Ergebnisse im Multi30k-Datensatz.