HyperAIHyperAI
il y a 16 jours

Transformateur multimodal pour la traduction automatique multimodale

{Xiaojun Wan, Shaowei Yao}
Transformateur multimodal pour la traduction automatique multimodale
Résumé

La traduction automatique multimodale (MMT) vise à intégrer des informations provenant d'autres modalités, généralement des images statiques, afin d'améliorer la qualité de la traduction. Les travaux antérieurs ont proposé diverses méthodes d'intégration, mais la plupart n'ont pas pris en compte l'importance relative des différentes modalités. Traiter toutes les modalités de manière équivalente peut entraîner l'encodage d'informations inutiles provenant des modalités moins pertinentes. Dans cet article, nous introduisons une attention multimodale dans le modèle Transformer afin de résoudre ces problèmes dans le cadre de la MMT. La méthode proposée apprend la représentation des images à partir du texte, ce qui permet d'éviter l'encodage d'informations visuelles non pertinentes. Des expériences et une analyse visuelle démontrent que notre modèle tire pleinement parti des informations visuelles et surpasse significativement les approches antérieures ainsi que les modèles de référence sur diverses métriques.

Transformateur multimodal pour la traduction automatique multimodale | Articles de recherche récents | HyperAI