HyperAIHyperAI

Command Palette

Search for a command to run...

Distillation von Übersetzungen mit visueller Wahrnehmung

Julia Ive extsuperscript1 Pranava Madhyastha extsuperscript2 Lucia Specia extsuperscript2

Zusammenfassung

Frühere Arbeiten zum multimodalen maschinellen Übersetzen haben gezeigt, dass visuelle Informationen nur in sehr spezifischen Fällen benötigt werden, beispielsweise bei der Verarbeitung von Mehrdeutigkeiten, wo der textuelle Kontext nicht ausreichend ist. Folglich neigen Modelle dazu, diese Informationen zu ignorieren. Wir schlagen einen Ansatz des Übersetzens und Feinabstimmens vor, bei dem Bilder erst von einem zweiten Decoder verwendet werden. Dieser Ansatz wird gemeinsam trainiert, um eine gute erste Übersetzungsentwurf zu erzeugen und diesen Entwurf durch (i) bessere Nutzung des textuellen Kontexts der Zielsprache (sowohl linker als auch rechter Kontext) und (ii) Nutzung des visuellen Kontexts zu verbessern. Dies führt zu Stand-of-the-Art-Ergebnissen. Zudem zeigen wir, dass dieser Ansatz die Fähigkeit besitzt, sich von fehlerhaften oder fehlenden Wörtern in der Quellsprache zu erholen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Distillation von Übersetzungen mit visueller Wahrnehmung | Paper | HyperAI