HyperAIHyperAI
il y a 2 mois

Récupération Intermodale dans le Contexte Culinaire : Apprentissage d'Embeddings Sémantiques Texte-Image

Micael Carvalho; Rémi Cadène; David Picard; Laure Soulier; Nicolas Thome; Matthieu Cord
Récupération Intermodale dans le Contexte Culinaire : Apprentissage d'Embeddings Sémantiques Texte-Image
Résumé

La conception d'outils puissants qui soutiennent les activités de cuisine a rapidement gagné en popularité grâce à la quantité massive de données disponibles et aux récentes avancées en apprentissage automatique capables de les analyser. Dans cet article, nous proposons un modèle de recherche intermodale qui aligne les données visuelles et textuelles (comme des images de plats et leurs recettes) dans un espace de représentation partagé. Nous décrivons un schéma d'apprentissage efficace, capable de traiter des problèmes à grande échelle, et nous le validons sur l'ensemble de données Recipe1M contenant près d'un million de paires image-recette. Nous montrons l'efficacité de notre approche par rapport aux modèles précédents de pointe et présentons des résultats qualitatifs sur des cas d'utilisation du calcul culinaire.

Récupération Intermodale dans le Contexte Culinaire : Apprentissage d'Embeddings Sémantiques Texte-Image | Articles de recherche récents | HyperAI