Récupération et synthèse multimodales (X-MRS) : Réduction de l'écart modal dans l'apprentissage des représentations partagées

L’analyse alimentaire computationnelle (CFA) nécessite naturellement des preuves multimodales pour un aliment donné, telles que des images, du texte de recettes, etc. Une clé fondamentale pour rendre la CFA possible réside dans l’apprentissage de représentations partagées multimodales, dont l’objectif est de construire une représentation conjointe des différentes modalités des données (texte et image). Dans ce travail, nous proposons une méthode d’apprentissage de représentations partagées intermodales spécifique au domaine alimentaire, capable de préserver la richesse sémantique considérable présente dans les données alimentaires. Notre approche repose sur un encodeur de recettes multilingue basé sur le transformer, couplé à une architecture classique d’embedding d’images. Nous proposons notamment d’utiliser des traductions multilingues imparfaites afin de régulariser efficacement le modèle, tout en ajoutant une fonctionnalité translinguistique et trans-alphabétique. Une analyse expérimentale sur le jeu de données public Recipe1M montre que la représentation apprise via notre méthode surpasse significativement les états de l’art (SOTA) actuels sur des tâches de recherche. En outre, la puissance représentationnelle de cette représentation est démontrée par un modèle de synthèse d’images alimentaires génératives conditionné sur les embeddings de recettes. Les images synthétisées parviennent à reproduire efficacement l’apparence visuelle des échantillons associés, indiquant que la représentation apprise capture bien les sémantiques conjointes du texte de la recette et de son contenu visuel, réduisant ainsi l’écart entre modalités.