HyperAIHyperAI

Command Palette

Search for a command to run...

Ein visuelles Aufmerksamkeitsbasiertes Neuronales Modell für multimodale Maschinelle Übersetzung

Mingyang Zhou; Runxiang Cheng; Yong Jae Lee; Zhou Yu

Zusammenfassung

Wir stellen ein neues multimodales Maschinübersetzungsmodell vor, das parallele visuelle und textuelle Informationen nutzt. Unser Modell optimiert gemeinsam das Lernen einer geteilten visuellen-linguistischen Einbettung und eines Übersetzers. Das Modell nutzt einen Mechanismus der visuellen Aufmerksamkeitsverankerung (visual attention grounding), der die visuellen Semantiken mit den entsprechenden textuellen Semantiken verknüpft. Unser Ansatz erzielt wettbewerbsfähige Stand-der-Technik-Ergebnisse auf den Multi30K- und den ambigen COCO-Datensätzen. Zudem haben wir einen neuen multilingualen multimodalen Produktbeschreibungsdatensatz gesammelt, um eine realistische internationale Online-Shopping-Situation zu simulieren. Bei diesem Datensatz übertrifft unser Modell der visuellen Aufmerksamkeitsverankerung andere Methoden deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein visuelles Aufmerksamkeitsbasiertes Neuronales Modell für multimodale Maschinelle Übersetzung | Paper | HyperAI