HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération alimentaire multimodale : apprentissage d'une représentation conjointe d'images alimentaires et de recettes avec cohérence sémantique et mécanisme d'attention

Hao Wang Doyen Sahoo Chenghao Liu Ke Shu Palakorn Achananuparp Ee-peng Lim Steven C. H. Hoi

Résumé

La récupération d’aliments constitue une tâche importante pour l’analyse d’informations liées à la nourriture, où l’on s’intéresse à extraire des informations pertinentes concernant un aliment spécifique, telles que ses ingrédients, ses instructions de cuisson, etc. Dans cet article, nous étudions la récupération multimodale entre des images d’aliments et des recettes de cuisine. L’objectif est d’apprendre une représentation commune (embedding) pour les images et les recettes dans un espace de caractéristiques partagé, de sorte que les embeddings correspondants d’une image et d’une recette soient proches l’un de l’autre. Deux défis majeurs posés par ce problème sont : 1) la grande variance intra-modale et la faible variance inter-modale présentes dans les données alimentaires multimodales ; et 2) la difficulté d’obtenir des représentations de recettes discriminantes. Pour surmonter ces deux difficultés, nous proposons un modèle appelé SCAN (Semantic-Consistent and Attention-based Networks), qui régularise les embeddings des deux modalités en alignant les probabilités sémantiques de sortie. En outre, nous exploitons un mécanisme d’attention auto-supervisée afin d’améliorer la représentation des recettes. Nous évaluons la performance de la méthode proposée sur le grand jeu de données Recipe1M, et démontrons qu’elle permet de surpasser de manière significative plusieurs stratégies de récupération multimodale de pointe pour les images d’aliments et les recettes de cuisine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récupération alimentaire multimodale : apprentissage d'une représentation conjointe d'images alimentaires et de recettes avec cohérence sémantique et mécanisme d'attention | Articles | HyperAI