HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodaler Transformer für die multimodale maschinelle Übersetzung

Xiaojun Wan Shaowei Yao

Zusammenfassung

Multimodale maschinelle Übersetzung (MMT) zielt darauf ab, Informationen aus anderen Modalitäten – in der Regel statische Bilder – einzubeziehen, um die Qualität der Übersetzung zu verbessern. Bisherige Ansätze haben verschiedene Methoden zur Integration vorgeschlagen, doch berücksichtigen die meisten nicht die relative Bedeutung mehrerer Modalitäten. Die gleichmäßige Behandlung aller Modalitäten kann dazu führen, dass zu viel irrelevantes Informationsmaterial aus weniger bedeutenden Modalitäten kodiert wird. In diesem Artikel führen wir die multimodale Selbst-Attention in den Transformer ein, um die oben genannten Probleme in der MMT zu lösen. Die vorgeschlagene Methode lernt die Bildrepräsentation basierend auf dem Text, wodurch die Kodierung von irrelevanten Informationen aus Bildern vermieden wird. Experimente und visuelle Analysen zeigen, dass unser Modell von visuellen Informationen profitiert und in Bezug auf verschiedene Metriken deutlich besser abschneidet als vorherige Ansätze und konkurrierende Baselines.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp