Gumbel-Attention für die multimodale maschinelle Übersetzung

Die multimodale maschinelle Übersetzung (MMT) verbessert die Übersetzungsqualität durch die Einbeziehung visueller Informationen. Allerdings ignorieren bestehende MMT-Modelle das Problem, dass Bilder Informationen enthalten können, die für den Text irrelevant sind, wodurch erhebliche Störungen für das Modell entstehen und die Übersetzungsqualität beeinträchtigt wird. In dieser Arbeit wird ein neuartiger Gumbel-Attention-Ansatz für die multimodale maschinelle Übersetzung vorgestellt, der die textrelevanten Teile der Bilddaten auswählt. Im Gegensatz zu früheren auf Aufmerksamkeit basierenden Methoden verwenden wir zunächst eine differenzierbare Methode, um die Bilddaten selektiv auszuwählen und automatisch die nutzlosen Teile der Bilddatenmerkmale zu entfernen. Experimente bestätigen, dass unsere Methode die textrelevanten Bilddatenmerkmale beibehält und die verbleibenden Teile dazu beitragen, dass das MMT-Modell qualitativ bessere Übersetzungen erzeugt.