HyperAIHyperAI
vor 2 Monaten

Latenten Variablenmodell für multimodale Übersetzung

Iacer Calixto; Miguel Rios; Wilker Aziz
Latenten Variablenmodell für multimodale Übersetzung
Abstract

In dieser Arbeit schlagen wir vor, die Interaktion zwischen visuellen und textuellen Merkmalen für multimodale neuronale Maschinübersetzung (MMT) durch ein latentes Variablenmodell zu modellieren. Diese latente Variable kann als eine multimodale stochastische Einbettung eines Bildes und seiner Beschreibung in einer fremden Sprache angesehen werden. Sie wird sowohl in einem Decoder für die Zielsprache verwendet als auch zur Vorhersage von Bildmerkmalen eingesetzt. Wichtig ist, dass unsere Modellformulierung während des Trainings visuelle und textuelle Eingaben nutzt, aber bei der Testphase nicht erfordert, dass Bilder verfügbar sind. Wir zeigen, dass unsere latente Variable MMT-Formulierung erhebliche Verbesserungen gegenüber starken Baseline-Methoden aufweist, darunter ein Multi-Task-Lernen-Ansatz (Elliott und Kádár, 2017) und ein bedingter Variations-Autoencoder-Ansatz (Toyama et al., 2016). Schließlich demonstrieren wir Verbesserungen durch (i) die Vorhersage von Bildmerkmalen zusätzlich zu deren Berücksichtigung, (ii) die Auferlegung einer Restriktion bezüglich der minimalen Menge an Informationen, die in der latenten Variable kodiert sind, und (iii) das Training mit zusätzlichen Bildbeschreibungen in der Zielsprache (d.h. synthetischen Daten).

Latenten Variablenmodell für multimodale Übersetzung | Neueste Forschungsarbeiten | HyperAI