Image in Nichts abbilden: Inversion Knowledge Distillation für multimodale maschinelle Übersetzung

Bisherige Arbeiten im Bereich der multimodalen maschinellen Übersetzung (MMT) erweitern den klassischen bilingualen Ansatz durch die Einbeziehung zusätzlicher, korrelierter visueller Informationen. Allerdings behindert die zwingende Anforderung eines Bildes in multimodalen Datensätzen die Entwicklung von MMT erheblich – konkret die Voraussetzung, dass jeweils ein korrelierter Datensatz der Form [Bild, Quelltext, Zieltext] vorliegt. Diese Beschränkung ist insbesondere während der Inferenzphase problematisch, wenn kein korreliertes Bild zur Verfügung steht, wie es in der herkömmlichen NMT-Setup der Fall ist. Daher stellen wir in dieser Arbeit IKD-MMT, einen neuartigen MMT-Framework vor, der die Bild-freie Inferenzphase mittels eines Inversions-Kenntnis-Transfer-Schemas unterstützt. Insbesondere wird ein multimodaler Merkmalsgenerator mit einem Kenntnis-Transfer-Modul kombiniert, das direkt aus (nur) Quelltexten multimodale Merkmale erzeugt. Obwohl bereits einige vorherige Arbeiten die Möglichkeit einer bild-freien Inferenz für maschinelle Übersetzung untersucht haben, erreichen deren Leistungen bislang noch nicht das Niveau der Bild-erfordernden Übersetzungen. In unseren Experimenten identifizieren wir unseren Ansatz als den ersten bild-freien Ansatz, der in umfassender Weise die Leistung von Bild-erfordernden Frameworks erreicht oder sogar übertreffen kann (nahezu alle), und erzielt auf dem weit verbreiteten Multi30k-Benchmark die derzeit beste Ergebnisqualität. Unsere Code- und Datensammlung ist unter folgender URL verfügbar: https://github.com/pengr/IKD-mmt/tree/master.