Récupération alimentaire multimodale : apprentissage d'une représentation conjointe d'images alimentaires et de recettes avec cohérence sémantique et mécanisme d'attention

La récupération d’aliments constitue une tâche importante pour l’analyse d’informations liées à la nourriture, où l’on s’intéresse à extraire des informations pertinentes concernant un aliment spécifique, telles que ses ingrédients, ses instructions de cuisson, etc. Dans cet article, nous étudions la récupération multimodale entre des images d’aliments et des recettes de cuisine. L’objectif est d’apprendre une représentation commune (embedding) pour les images et les recettes dans un espace de caractéristiques partagé, de sorte que les embeddings correspondants d’une image et d’une recette soient proches l’un de l’autre. Deux défis majeurs posés par ce problème sont : 1) la grande variance intra-modale et la faible variance inter-modale présentes dans les données alimentaires multimodales ; et 2) la difficulté d’obtenir des représentations de recettes discriminantes. Pour surmonter ces deux difficultés, nous proposons un modèle appelé SCAN (Semantic-Consistent and Attention-based Networks), qui régularise les embeddings des deux modalités en alignant les probabilités sémantiques de sortie. En outre, nous exploitons un mécanisme d’attention auto-supervisée afin d’améliorer la représentation des recettes. Nous évaluons la performance de la méthode proposée sur le grand jeu de données Recipe1M, et démontrons qu’elle permet de surpasser de manière significative plusieurs stratégies de récupération multimodale de pointe pour les images d’aliments et les recettes de cuisine.