HyperAIHyperAI
vor 11 Tagen

Dynamisches kontextgesteuertes Kapselnetzwerk für multimodale maschinelle Übersetzung

Huan Lin, Fandong Meng, Jinsong Su, Yongjing Yin, Zhengyuan Yang, Yubin Ge, Jie Zhou, Jiebo Luo
Dynamisches kontextgesteuertes Kapselnetzwerk für multimodale maschinelle Übersetzung
Abstract

Multimodale maschinelle Übersetzung (MMT), die sich hauptsächlich darauf konzentriert, die rein textbasierte Übersetzung durch visuelle Merkmale zu verbessern, hat erhebliche Aufmerksamkeit sowohl aus der Computer Vision- als auch aus der Natural Language Processing-Community erhalten. Die meisten aktuellen MMT-Modelle greifen auf Aufmerksamkeitsmechanismen, globale Kontextmodellierung oder gemeinsame multimodale Repräsentationslernung zurück, um visuelle Merkmale zu nutzen. Allerdings fehlt dem Aufmerksamkeitsmechanismus eine ausreichende semantische Interaktion zwischen den Modalitäten, während die beiden anderen Ansätze einen festen visuellen Kontext bereitstellen, der für die Modellierung der beobachteten Variabilität während der Übersetzungsgenerierung ungeeignet ist. Um diese Probleme anzugehen, schlagen wir in diesem Artikel ein neuartiges dynamisch kontextgeleitetes Kapselfeld-Netzwerk (Dynamic Context-guided Capsule Network, DCCN) für MMT vor. Konkret nutzen wir zu jedem Zeitpunkt des Decodierens zunächst den herkömmlichen Quelle-Ziel-Aufmerksamkeitsmechanismus, um einen zeitpunktspezifischen Kontextvektor aus der Quellseite zu erzeugen. Anschließend nimmt DCCN diesen Vektor als Eingabe und verwendet ihn, um über einen kontextgeleiteten dynamischen Routing-Mechanismus iterativ relevante visuelle Merkmale zu extrahieren. Insbesondere repräsentieren wir das Eingabebild durch globale und regionale visuelle Merkmale und führen zwei parallele DCCNs ein, um multimodale Kontextvektoren mit visuellen Merkmalen unterschiedlicher Granularität zu modellieren. Schließlich erhalten wir zwei multimodale Kontextvektoren, die gefaltet und in den Decoder integriert werden, um das Zielwort vorherzusagen. Experimentelle Ergebnisse auf dem Multi30K-Datensatz für die Übersetzung von Englisch nach Deutsch und Englisch nach Französisch belegen die Überlegenheit von DCCN. Unser Code ist unter https://github.com/DeepLearnXMU/MM-DCCN verfügbar.

Dynamisches kontextgesteuertes Kapselnetzwerk für multimodale maschinelle Übersetzung | Neueste Forschungsarbeiten | HyperAI