Décodeurs Transformer avec régularisation multimodale pour la récupération alimentaire cross-modale

La recherche croisée d’images et de recettes (cross-modal image-recipe retrieval) a suscité un intérêt croissant ces dernières années. La plupart des travaux se concentrent sur l’amélioration des embeddings croisés à l’aide d’encodeurs unimodaux, permettant une récupération efficace dans des bases de données à grande échelle, tout en négligeant l’attention croisée entre modalités, qui est plus coûteuse en termes de calcul. Nous proposons un nouveau cadre de récupération, T-Food (Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval), qui exploite de manière innovante les interactions entre modalités via un schéma de régularisation, tout en utilisant uniquement des encodeurs unimodaux au moment du test pour garantir une récupération efficace. Nous capturons également les dépendances intra-entités au sein des recettes grâce à un encodeur dédié à la recette, et introduisons de nouvelles variantes de pertes en triplet à marges dynamiques, adaptées à la difficulté de la tâche. Enfin, nous tirons parti de la puissance des modèles récents de pré-entraînement vision-langage (Vision and Language Pretraining, VLP), tels que CLIP, pour l’encodeur d’images. Notre approche surpasse de manière significative les méthodes existantes sur le jeu de données Recipe1M : nous obtenons des améliorations absolues de 8,1 % (72,6 R@1) et de 10,9 % (44,6 R@1) respectivement sur les ensembles de test de 1k et 10k. Le code est disponible à l’adresse suivante : https://github.com/mshukor/TFood