HyperAIHyperAI
il y a 2 mois

Un Modèle Neuronal de Mise en Contexte de l'Attention Visuelle pour la Traduction Multimodale par Machine

Mingyang Zhou; Runxiang Cheng; Yong Jae Lee; Zhou Yu
Un Modèle Neuronal de Mise en Contexte de l'Attention Visuelle pour la Traduction Multimodale par Machine
Résumé

Nous présentons un nouveau modèle de traduction multimodale qui utilise des informations visuelles et textuelles parallèles. Notre modèle optimise conjointement l'apprentissage d'un plongement (embedding) visuel-linguistique partagé et celui d'un traducteur. Le modèle exploite un mécanisme d'attention visuelle ancrée qui établit un lien entre les sémantiques visuelles et les sémantiques textuelles correspondantes. Notre approche obtient des résultats compétitifs à l'état de l'art sur les ensembles de données Multi30K et Ambiguous COCO. Nous avons également collecté un nouvel ensemble de données multilingue et multimodal de descriptions de produits pour simuler un scénario réel d'achat en ligne international. Sur cet ensemble de données, notre modèle d'attention visuelle ancrée surpassent les autres méthodes avec une marge importante.

Un Modèle Neuronal de Mise en Contexte de l'Attention Visuelle pour la Traduction Multimodale par Machine | Articles de recherche récents | HyperAI