HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération et synthèse multimodales (X-MRS) : Réduction de l'écart modal dans l'apprentissage des représentations partagées

Ricardo Guerrero Hai Xuan Pham Vladimir Pavlovic

Résumé

L’analyse alimentaire computationnelle (CFA) nécessite naturellement des preuves multimodales pour un aliment donné, telles que des images, du texte de recettes, etc. Une clé fondamentale pour rendre la CFA possible réside dans l’apprentissage de représentations partagées multimodales, dont l’objectif est de construire une représentation conjointe des différentes modalités des données (texte et image). Dans ce travail, nous proposons une méthode d’apprentissage de représentations partagées intermodales spécifique au domaine alimentaire, capable de préserver la richesse sémantique considérable présente dans les données alimentaires. Notre approche repose sur un encodeur de recettes multilingue basé sur le transformer, couplé à une architecture classique d’embedding d’images. Nous proposons notamment d’utiliser des traductions multilingues imparfaites afin de régulariser efficacement le modèle, tout en ajoutant une fonctionnalité translinguistique et trans-alphabétique. Une analyse expérimentale sur le jeu de données public Recipe1M montre que la représentation apprise via notre méthode surpasse significativement les états de l’art (SOTA) actuels sur des tâches de recherche. En outre, la puissance représentationnelle de cette représentation est démontrée par un modèle de synthèse d’images alimentaires génératives conditionné sur les embeddings de recettes. Les images synthétisées parviennent à reproduire efficacement l’apparence visuelle des échantillons associés, indiquant que la représentation apprise capture bien les sémantiques conjointes du texte de la recette et de son contenu visuel, réduisant ainsi l’écart entre modalités.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récupération et synthèse multimodales (X-MRS) : Réduction de l'écart modal dans l'apprentissage des représentations partagées | Articles | HyperAI