HyperAIHyperAI
vor 16 Tagen

Multimodaler Transformer für die multimodale maschinelle Übersetzung

{Xiaojun Wan, Shaowei Yao}
Multimodaler Transformer für die multimodale maschinelle Übersetzung
Abstract

Multimodale maschinelle Übersetzung (MMT) zielt darauf ab, Informationen aus anderen Modalitäten – in der Regel statische Bilder – einzubeziehen, um die Qualität der Übersetzung zu verbessern. Bisherige Ansätze haben verschiedene Methoden zur Integration vorgeschlagen, doch berücksichtigen die meisten nicht die relative Bedeutung mehrerer Modalitäten. Die gleichmäßige Behandlung aller Modalitäten kann dazu führen, dass zu viel irrelevantes Informationsmaterial aus weniger bedeutenden Modalitäten kodiert wird. In diesem Artikel führen wir die multimodale Selbst-Attention in den Transformer ein, um die oben genannten Probleme in der MMT zu lösen. Die vorgeschlagene Methode lernt die Bildrepräsentation basierend auf dem Text, wodurch die Kodierung von irrelevanten Informationen aus Bildern vermieden wird. Experimente und visuelle Analysen zeigen, dass unser Modell von visuellen Informationen profitiert und in Bezug auf verschiedene Metriken deutlich besser abschneidet als vorherige Ansätze und konkurrierende Baselines.

Multimodaler Transformer für die multimodale maschinelle Übersetzung | Neueste Forschungsarbeiten | HyperAI