il y a 6 mois

Résumé

La traduction machine multimodale (MMT) enrichit le texte source grâce à des informations visuelles. Ce domaine a connu un regain d’intérêt ces dernières années, et plusieurs architectures ont été proposées dans cette direction. Toutefois, le manque de jeux de données de qualité limite la capacité à évaluer de manière précise l’apport de la modalité visuelle dans les systèmes de traduction. Dans ce travail, nous présentons notre système, désigné sous le nom d’équipe Volta, pour la tâche de traduction multimodale du WAT 2021, de l’anglais vers l’hindi. Nous participons également à la sous-tâche uniquement textuelle pour le même couple de langues, où nous utilisons mBART, un modèle préentraîné multilingue basé sur une architecture séquence-à-séquence. Pour la traduction multimodale, nous proposons d’enrichir l’entrée textuelle en transférant les informations visuelles dans le domaine textuel, en extrayant des étiquettes d’objets à partir de l’image. Nous étudions également la robustesse de notre système en dégradant systématiquement le texte source. Enfin, nous atteignons un score BLEU de 44,6 et 51,6 respectivement sur les ensembles de test et de défi de la tâche multimodale.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Kshitij Gupta Devansh Gautam Radhika Mamidi

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Kshitij Gupta Devansh Gautam Radhika Mamidi

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

ViTA : Traduction visuo-linguistique par alignement des étiquettes d'objets | Articles | HyperAI

Command Palette

ViTA : Traduction visuo-linguistique par alignement des étiquettes d'objets

Kshitij Gupta Devansh Gautam Radhika Mamidi

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ViTA : Traduction visuo-linguistique par alignement des étiquettes d'objets

Kshitij Gupta Devansh Gautam Radhika Mamidi

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ViTA : Traduction visuo-linguistique par alignement des étiquettes d'objets

Kshitij Gupta Devansh Gautam Radhika Mamidi

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters