HyperAIHyperAI

Command Palette

Search for a command to run...

Alignement latent de concepts procéduraux dans des recettes multimodales

Hossein Rajaby Faghihi Roshanak Mirzaee Sudarshan Paliwal Parisa Kordjamshidi

Résumé

Nous proposons un mécanisme d’alignement novateur pour traiter le raisonnement procédural sur un nouveau jeu de données multimodales de questions-réponses, nommé RecipeQA. Notre modèle résout une tâche de complétion textuelle (cloze) basée sur des recettes comprenant à la fois des images et des instructions. Nous exploitons la puissance des réseaux d’attention, des représentations croisées entre modalités et d’un espace d’alignement latent entre les instructions et les réponses candidates afin de résoudre ce problème. Nous introduisons une opération de max-pooling contraint, qui affine l’opération de max-pooling appliquée à la matrice d’alignement en imposant des contraintes d’exclusivité entre les sorties du modèle. Les résultats d’évaluation montrent une amélioration de 19 % par rapport aux méthodes de référence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp