HyperAIHyperAI

Command Palette

Search for a command to run...

Intégration des caractéristiques visuelles globales dans la traduction automatique neuronale basée sur l'attention

Iacer Calixto Qun Liu Nick Campbell

Résumé

Nous présentons des modèles de traduction neuronale (NMT) multimodaux basés sur l'attention qui intègrent des caractéristiques visuelles dans différentes parties du codage et du décodage. Nous utilisons des caractéristiques d'image globales extraites à l'aide d'un réseau neuronal convolutif pré-entraîné et les incorporons (i) en tant que mots dans la phrase source, (ii) pour initialiser l'état caché du codage, et (iii) comme données supplémentaires pour initialiser l'état caché du décodage. Dans nos expériences, nous évaluons comment ces différentes stratégies d'intégration des caractéristiques d'image globales se comparent et lesquelles donnent les meilleurs résultats. Nous étudions également l'impact de l'ajout de données multimodales et multilingues synthétiques et constatons que ces données supplémentaires ont un effet positif sur les modèles multimodaux. Nous rapportons de nouveaux résultats de pointe et nos meilleurs modèles améliorent considérablement un modèle de traduction statistique basée sur les phrases (PBSMT) comparable formé sur le jeu de données Multi30k selon tous les métriques évaluées. Selon nos connaissances, c'est la première fois qu'un modèle purement neuronal surpass significativement un modèle PBSMT sur toutes les métriques évaluées sur ce jeu de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp