Réseau de capsules guidé par le contexte dynamique pour la traduction automatique multimodale

La traduction multimodale (MMT), qui vise principalement à améliorer la traduction textuelle unique en intégrant des caractéristiques visuelles, a suscité un intérêt croissant tant au sein de la communauté du traitement d’image que de celle du traitement du langage naturel. La plupart des modèles actuels de MMT s’appuient sur des mécanismes d’attention, une modélisation du contexte global ou un apprentissage conjoint de représentations multimodales pour exploiter les informations visuelles. Toutefois, le mécanisme d’attention manque d’interactions sémantiques suffisantes entre les modalités, tandis que les deux autres approches fournissent un contexte visuel fixe, ce qui s’avère inadapté pour modéliser la variabilité observée lors de la génération de traductions. Pour surmonter ces limites, nous proposons dans cet article un nouveau réseau de capsules guidé par un contexte dynamique (DCCN) pour la MMT. Plus précisément, à chaque étape de décodage, nous utilisons d’abord une attention classique source-cible afin de produire un vecteur de contexte spécifique à l’étape, issu du côté source. Ensuite, le DCCN prend ce vecteur comme entrée et l’utilise pour guider, par un mécanisme itératif de routage dynamique guidé par le contexte, l’extraction de caractéristiques visuelles pertinentes. En particulier, nous représentons l’image d’entrée à l’aide de caractéristiques visuelles globales et régionales, et introduisons deux réseaux DCCN parallèles afin de modéliser des vecteurs de contexte multimodaux à différentes granularités. Enfin, nous obtenons deux vecteurs de contexte multimodaux, qui sont fusionnés et intégrés au décodeur pour prédire le mot cible. Les résultats expérimentaux sur le jeu de données Multi30K pour les tâches de traduction anglaise vers allemande et anglaise vers française démontrent l’efficacité supérieure du DCCN. Notre code est disponible à l’adresse suivante : https://github.com/DeepLearnXMU/MM-DCCN.