HyperAIHyperAI
vor 2 Monaten

Distillation von Übersetzungen mit visueller Wahrnehmung

Julia Ive; Pranava Madhyastha; Lucia Specia
Distillation von Übersetzungen mit visueller Wahrnehmung
Abstract

Frühere Arbeiten zum multimodalen maschinellen Übersetzen haben gezeigt, dass visuelle Informationen nur in sehr spezifischen Fällen benötigt werden, beispielsweise bei der Verarbeitung von Mehrdeutigkeiten, wo der textuelle Kontext nicht ausreichend ist. Folglich neigen Modelle dazu, diese Informationen zu ignorieren. Wir schlagen einen Ansatz des Übersetzens und Feinabstimmens vor, bei dem Bilder erst von einem zweiten Decoder verwendet werden. Dieser Ansatz wird gemeinsam trainiert, um eine gute erste Übersetzungsentwurf zu erzeugen und diesen Entwurf durch (i) bessere Nutzung des textuellen Kontexts der Zielsprache (sowohl linker als auch rechter Kontext) und (ii) Nutzung des visuellen Kontexts zu verbessern. Dies führt zu Stand-of-the-Art-Ergebnissen. Zudem zeigen wir, dass dieser Ansatz die Fähigkeit besitzt, sich von fehlerhaften oder fehlenden Wörtern in der Quellsprache zu erholen.

Distillation von Übersetzungen mit visueller Wahrnehmung | Neueste Forschungsarbeiten | HyperAI