HyperAIHyperAI

Command Palette

Search for a command to run...

ViTA : Traduction visuo-linguistique par alignement des étiquettes d'objets

Kshitij Gupta Devansh Gautam Radhika Mamidi

Résumé

La traduction machine multimodale (MMT) enrichit le texte source grâce à des informations visuelles. Ce domaine a connu un regain d’intérêt ces dernières années, et plusieurs architectures ont été proposées dans cette direction. Toutefois, le manque de jeux de données de qualité limite la capacité à évaluer de manière précise l’apport de la modalité visuelle dans les systèmes de traduction. Dans ce travail, nous présentons notre système, désigné sous le nom d’équipe Volta, pour la tâche de traduction multimodale du WAT 2021, de l’anglais vers l’hindi. Nous participons également à la sous-tâche uniquement textuelle pour le même couple de langues, où nous utilisons mBART, un modèle préentraîné multilingue basé sur une architecture séquence-à-séquence. Pour la traduction multimodale, nous proposons d’enrichir l’entrée textuelle en transférant les informations visuelles dans le domaine textuel, en extrayant des étiquettes d’objets à partir de l’image. Nous étudions également la robustesse de notre système en dégradant systématiquement le texte source. Enfin, nous atteignons un score BLEU de 44,6 et 51,6 respectivement sur les ensembles de test et de défi de la tâche multimodale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp