HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur multimodal pour la traduction automatique multimodale

Xiaojun Wan Shaowei Yao

Résumé

La traduction automatique multimodale (MMT) vise à intégrer des informations provenant d'autres modalités, généralement des images statiques, afin d'améliorer la qualité de la traduction. Les travaux antérieurs ont proposé diverses méthodes d'intégration, mais la plupart n'ont pas pris en compte l'importance relative des différentes modalités. Traiter toutes les modalités de manière équivalente peut entraîner l'encodage d'informations inutiles provenant des modalités moins pertinentes. Dans cet article, nous introduisons une attention multimodale dans le modèle Transformer afin de résoudre ces problèmes dans le cadre de la MMT. La méthode proposée apprend la représentation des images à partir du texte, ce qui permet d'éviter l'encodage d'informations visuelles non pertinentes. Des expériences et une analyse visuelle démontrent que notre modèle tire pleinement parti des informations visuelles et surpasse significativement les approches antérieures ainsi que les modèles de référence sur diverses métriques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp