Alignement latent de concepts procéduraux dans des recettes multimodales

Nous proposons un mécanisme d’alignement novateur pour traiter le raisonnement procédural sur un nouveau jeu de données multimodales de questions-réponses, nommé RecipeQA. Notre modèle résout une tâche de complétion textuelle (cloze) basée sur des recettes comprenant à la fois des images et des instructions. Nous exploitons la puissance des réseaux d’attention, des représentations croisées entre modalités et d’un espace d’alignement latent entre les instructions et les réponses candidates afin de résoudre ce problème. Nous introduisons une opération de max-pooling contraint, qui affine l’opération de max-pooling appliquée à la matrice d’alignement en imposant des contraintes d’exclusivité entre les sorties du modèle. Les résultats d’évaluation montrent une amélioration de 19 % par rapport aux méthodes de référence.