Recipe1M+ : Une base de données pour l'apprentissage d'embeddings multimodaux pour les recettes de cuisine et les images de nourriture

Dans cet article, nous présentons Recipe1M+, un nouveau corpus structuré à grande échelle comprenant plus d'un million de recettes de cuisine et 13 millions d'images de nourriture. En tant que la plus grande collection publiquement accessible de données sur les recettes, Recipe1M+ offre la possibilité d'entraîner des modèles à forte capacité sur des données multimodales alignées. À l'aide de ces données, nous entraînons un réseau neuronal pour apprendre une plongée conjointe des recettes et des images, ce qui donne des résultats impressionnants dans une tâche de recherche d'images par recette. De plus, nous démontrons que la régularisation par l'ajout d'un objectif de classification de haut niveau améliore non seulement les performances de recherche pour se rapprocher de celles des humains, mais permet également des opérations arithmétiques sémantiques. Nous supposons que ces plongées fourniront une base pour une exploration ultérieure du jeu de données Recipe1M+ ainsi que des domaines de la nourriture et de la cuisine en général. Le code, les données et les modèles sont disponibles au public.