Ein visuelles Aufmerksamkeitsbasiertes Neuronales Modell für multimodale Maschinelle Übersetzung

Wir stellen ein neues multimodales Maschinübersetzungsmodell vor, das parallele visuelle und textuelle Informationen nutzt. Unser Modell optimiert gemeinsam das Lernen einer geteilten visuellen-linguistischen Einbettung und eines Übersetzers. Das Modell nutzt einen Mechanismus der visuellen Aufmerksamkeitsverankerung (visual attention grounding), der die visuellen Semantiken mit den entsprechenden textuellen Semantiken verknüpft. Unser Ansatz erzielt wettbewerbsfähige Stand-der-Technik-Ergebnisse auf den Multi30K- und den ambigen COCO-Datensätzen. Zudem haben wir einen neuen multilingualen multimodalen Produktbeschreibungsdatensatz gesammelt, um eine realistische internationale Online-Shopping-Situation zu simulieren. Bei diesem Datensatz übertrifft unser Modell der visuellen Aufmerksamkeitsverankerung andere Methoden deutlich.