HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale maschinelle Übersetzung durch Bilder und Sprache

Umut Sulubacak Ozan Caglayan Stig-Arne Grönroos Aku Rouhe Desmond Elliott Lucia Specia Jörg Tiedemann

Zusammenfassung

Die multimodale maschinelle Übersetzung beinhaltet die Nutzung von Informationen aus mehr als einer Modalität, basierend auf der Annahme, dass die zusätzlichen Modalitäten nützliche alternative Perspektiven auf die Eingabedaten liefern. Die prominentesten Aufgaben in diesem Bereich sind die Sprachübersetzung (spoken language translation), die bildgestützte Übersetzung (image-guided translation) und die video-gestützte Übersetzung (video-guided translation), die jeweils audio- und visuelle Modalitäten ausnutzen. Diese Aufgaben unterscheiden sich von ihren monolingualen Pendanten – der Spracherkennung, der Bildbeschreibung (image captioning) und der Videobeschreibung (video captioning) – durch die Anforderung, dass die Modelle Ausgaben in einer anderen Sprache generieren müssen. Diese Übersichtsarbeit bespricht die wichtigsten Datensammlungen für diese Aufgaben, die darauf fokussierten Evaluierungskampagnen, den Stand der Technik bei end-to-end- und Pipeline-Ansätzen sowie die Herausforderungen bei der Leistungsevaluierung. Der Artikel schließt mit einer Diskussion zukünftiger Forschungsrichtungen in diesen Bereichen: der Notwendigkeit umfangreicherer und anspruchsvollerer Datensätze, gezielter Evaluierungen der Modellleistung sowie der Berücksichtigung von Multimodalität sowohl im Eingabespace als auch im Ausgabespace.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multimodale maschinelle Übersetzung durch Bilder und Sprache | Paper | HyperAI