HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle de variable latente pour la traduction multi-modale

Iacer Calixto; Miguel Rios; Wilker Aziz

Résumé

Dans cette étude, nous proposons de modéliser l'interaction entre les caractéristiques visuelles et textuelles pour la traduction neuronale multi-modale (MMT) à travers un modèle à variables latentes. Cette variable latente peut être considérée comme une représentation stochastique multi-modale d'une image et de sa description dans une langue étrangère. Elle est utilisée dans un décodeur de la langue cible et également pour prédire les caractéristiques de l'image. Il est important de noter que notre formulation du modèle utilise des entrées visuelles et textuelles pendant l'entraînement, mais ne nécessite pas la disponibilité des images lors des tests. Nous montrons que notre formulation MMT à variables latentes améliore considérablement les performances par rapport à des baselines robustes, notamment une approche d'apprentissage multi-tâches (Elliott et Kádár, 2017) et une approche d'auto-encodeur variationnel conditionnel (Toyama et al., 2016). Enfin, nous démontrons des améliorations dues : (i) à la prédiction des caractéristiques de l'image en plus de n'y conditionner que le modèle, (ii) à l'imposition d'une contrainte sur la quantité minimale d'information encodée dans la variable latente, et (iii) au fait d'entraîner le modèle sur des descriptions d'images supplémentaires en langue cible (c'est-à-dire des données synthétiques).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp