Apprentissage d'embeddings multimodaux avec des réseaux adverses pour les recettes de cuisine et les images alimentaires

Le calcul alimentaire joue un rôle de plus en plus important dans la vie quotidienne humaine et trouve des applications considérables pour orienter le comportement humain vers une consommation alimentaire intelligente et un mode de vie sain. Une tâche importante relevant du domaine du calcul alimentaire est la recherche d'information, qui est particulièrement utile pour les applications liées à la santé, où l'on s'intéresse à la récupération d'informations importantes sur les aliments (par exemple, les ingrédients, la nutrition, etc.). Dans cet article, nous examinons une tâche de recherche ouverte entre les recettes de cuisine et les images alimentaires, et proposons un cadre novateur appelé Adversarial Cross-Modal Embedding (ACME) pour résoudre cette tâche de recherche intermodale dans le domaine alimentaire. Plus précisément, l'objectif est d'apprendre un espace de caractéristiques d'embedding commun entre les deux modalités, dans lequel notre approche intègre plusieurs idées innovantes : (i) l'apprentissage utilisant un nouveau schéma de perte triplet associé à une stratégie d'échantillonnage efficace, (ii) l'imposition d'un alignement intermodal grâce à une stratégie d'apprentissage antagoniste, et (iii) l'imposition d'une cohérence de traduction intermodale afin que l'embedding d'une modalité puisse restituer certaines informations importantes des instances correspondantes dans l'autre modalité. ACME atteint des performances de pointe sur le jeu de données de référence Recipe1M, validant ainsi l'efficacité de la technique proposée.