Multimodale maschinelle Übersetzung durch Bilder und Sprache

Die multimodale maschinelle Übersetzung beinhaltet die Nutzung von Informationen aus mehr als einer Modalität, basierend auf der Annahme, dass die zusätzlichen Modalitäten nützliche alternative Perspektiven auf die Eingabedaten liefern. Die prominentesten Aufgaben in diesem Bereich sind die Sprachübersetzung (spoken language translation), die bildgestützte Übersetzung (image-guided translation) und die video-gestützte Übersetzung (video-guided translation), die jeweils audio- und visuelle Modalitäten ausnutzen. Diese Aufgaben unterscheiden sich von ihren monolingualen Pendanten – der Spracherkennung, der Bildbeschreibung (image captioning) und der Videobeschreibung (video captioning) – durch die Anforderung, dass die Modelle Ausgaben in einer anderen Sprache generieren müssen. Diese Übersichtsarbeit bespricht die wichtigsten Datensammlungen für diese Aufgaben, die darauf fokussierten Evaluierungskampagnen, den Stand der Technik bei end-to-end- und Pipeline-Ansätzen sowie die Herausforderungen bei der Leistungsevaluierung. Der Artikel schließt mit einer Diskussion zukünftiger Forschungsrichtungen in diesen Bereichen: der Notwendigkeit umfangreicherer und anspruchsvollerer Datensätze, gezielter Evaluierungen der Modellleistung sowie der Berücksichtigung von Multimodalität sowohl im Eingabespace als auch im Ausgabespace.