HyperAIHyperAI
il y a 15 jours

Réinvention de la récupération de recettes multimodale grâce aux Transformers hiérarchiques et à l'apprentissage auto-supervisé

Amaia Salvador, Erhan Gundogdu, Loris Bazzani, Michael Donoser
Réinvention de la récupération de recettes multimodale grâce aux Transformers hiérarchiques et à l'apprentissage auto-supervisé
Résumé

La recherche de recettes multimodale a récemment suscité un intérêt croissant en raison de l’importance fondamentale de la nourriture dans la vie des individus, ainsi que de la disponibilité de vastes quantités de recettes culinaires numériques et d’images alimentaires permettant d’entraîner des modèles d’apprentissage automatique. Dans ce travail, nous reprenons les approches existantes pour la recherche de recettes multimodale et proposons un modèle simplifié et end-to-end reposant sur des encodeurs éprouvés et performants pour le texte et les images. Nous introduisons un Transformer hiérarchique pour les recettes, qui encode de manière attentive les composants individuels d’une recette (titres, ingrédients et instructions). Par ailleurs, nous proposons une fonction de perte auto-supervisée calculée à partir de paires de composants de recettes individuels, permettant d’exploiter les relations sémantiques au sein des recettes et d’effectuer l’entraînement à la fois sur des paires image-recette et sur des échantillons de recettes seules. Nous menons une analyse approfondie ainsi que des études d’ablation afin de valider nos choix architecturaux. En résultat, notre méthode proposée atteint des performances de pointe dans la tâche de recherche de recettes multimodale sur le jeu de données Recipe1M. Nous mettons le code et les modèles à disposition du public.

Réinvention de la récupération de recettes multimodale grâce aux Transformers hiérarchiques et à l'apprentissage auto-supervisé | Articles de recherche récents | HyperAI