HyperAIHyperAI

Command Palette

Search for a command to run...

Un Modèle Neuronal de Mise en Contexte de l'Attention Visuelle pour la Traduction Multimodale par Machine

Mingyang Zhou; Runxiang Cheng; Yong Jae Lee; Zhou Yu

Résumé

Nous présentons un nouveau modèle de traduction multimodale qui utilise des informations visuelles et textuelles parallèles. Notre modèle optimise conjointement l'apprentissage d'un plongement (embedding) visuel-linguistique partagé et celui d'un traducteur. Le modèle exploite un mécanisme d'attention visuelle ancrée qui établit un lien entre les sémantiques visuelles et les sémantiques textuelles correspondantes. Notre approche obtient des résultats compétitifs à l'état de l'art sur les ensembles de données Multi30K et Ambiguous COCO. Nous avons également collecté un nouvel ensemble de données multilingue et multimodal de descriptions de produits pour simuler un scénario réel d'achat en ligne international. Sur cet ensemble de données, notre modèle d'attention visuelle ancrée surpassent les autres méthodes avec une marge importante.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un Modèle Neuronal de Mise en Contexte de l'Attention Visuelle pour la Traduction Multimodale par Machine | Articles | HyperAI