Command Palette
Search for a command to run...
Distillation von Übersetzungen mit visueller Wahrnehmung
Distillation von Übersetzungen mit visueller Wahrnehmung
Julia Ive extsuperscript1 Pranava Madhyastha extsuperscript2 Lucia Specia extsuperscript2
Zusammenfassung
Frühere Arbeiten zum multimodalen maschinellen Übersetzen haben gezeigt, dass visuelle Informationen nur in sehr spezifischen Fällen benötigt werden, beispielsweise bei der Verarbeitung von Mehrdeutigkeiten, wo der textuelle Kontext nicht ausreichend ist. Folglich neigen Modelle dazu, diese Informationen zu ignorieren. Wir schlagen einen Ansatz des Übersetzens und Feinabstimmens vor, bei dem Bilder erst von einem zweiten Decoder verwendet werden. Dieser Ansatz wird gemeinsam trainiert, um eine gute erste Übersetzungsentwurf zu erzeugen und diesen Entwurf durch (i) bessere Nutzung des textuellen Kontexts der Zielsprache (sowohl linker als auch rechter Kontext) und (ii) Nutzung des visuellen Kontexts zu verbessern. Dies führt zu Stand-of-the-Art-Ergebnissen. Zudem zeigen wir, dass dieser Ansatz die Fähigkeit besitzt, sich von fehlerhaften oder fehlenden Wörtern in der Quellsprache zu erholen.