HyperAIHyperAI

Command Palette

Search for a command to run...

Traduction automatique multimodale par le biais de l'image et de la parole

Umut Sulubacak Ozan Caglayan Stig-Arne Grönroos Aku Rouhe Desmond Elliott Lucia Specia Jörg Tiedemann

Résumé

La traduction automatique multimodale consiste à tirer des informations provenant de plus d’un mode, sur la base de l’hypothèse que les modalités supplémentaires contiennent des perspectives alternatives utiles sur les données d’entrée. Les tâches les plus marquantes dans ce domaine sont la traduction de langage parlé, la traduction guidée par image et la traduction guidée par vidéo, qui exploitent respectivement les modalités audio et visuelle. Ces tâches se distinguent de leurs homologues monomodales — la reconnaissance vocale, la génération de légendes d’image et la génération de légendes de vidéo — par la nécessité pour les modèles de produire des sorties dans une langue différente. Ce survol examine les principales ressources de données disponibles pour ces tâches, les campagnes d’évaluation qui leur sont dédiées, l’état de l’art des approches end-to-end et des approches en pipeline, ainsi que les défis liés à l’évaluation des performances. La communication se termine par une discussion sur les perspectives de recherche futures dans ces domaines : la nécessité de données plus étendues et plus exigeantes, d’évaluations ciblées de la performance des modèles, ainsi que la prise en compte de la multimodalité à la fois dans l’espace d’entrée et dans l’espace de sortie.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp