HyperAIHyperAI
il y a 2 mois

LLaVA-Chef : Un modèle génératif multi-modal pour les recettes de cuisine

Fnu Mohbat; Mohammed J. Zaki
LLaVA-Chef : Un modèle génératif multi-modal pour les recettes de cuisine
Résumé

Dans le paysage en rapide évolution du partage de recettes en ligne dans un contexte mondialisé, une augmentation notable de la recherche visant à comprendre et générer des recettes culinaires a été observée. Les récents progrès dans les grands modèles linguistiques (LLMs) tels que GPT-2 et LLaVA ont ouvert la voie à des approches de traitement du langage naturel (NLP) pour explorer plus en profondeur divers aspects des tâches liées à l'alimentation, incluant la reconnaissance d'ingrédients et la génération complète de recettes. Malgré leurs performances impressionnantes et leur adaptabilité multi-modale, une formation spécifique au domaine reste essentielle pour leur application efficace. Cette étude évalue les LLMs existants pour la génération de recettes et propose LLaVA-Chef, un nouveau modèle formé sur un ensemble de données soigneusement sélectionné comprenant diverses invitations à créer des recettes, dans une approche en plusieurs étapes. Premièrement, nous affinons le mappage des plongements d'images alimentaires visuelles vers l'espace linguistique. Deuxièmement, nous adaptons LLaVA au domaine culinaire en le fine-tuning sur des données de recettes pertinentes. Troisièmement, nous utilisons des prompts variés pour améliorer la compréhension des recettes par le modèle. Enfin, nous améliorons la qualité linguistique des recettes générées en pénalisant le modèle avec une fonction de perte personnalisée. LLaVA-Chef montre des améliorations remarquables par rapport aux LLMs préformés et aux travaux antérieurs. Une analyse qualitative détaillée révèle que LLaVA-Chef génère des recettes plus détaillées avec des mentions précises d'ingrédients, comparativement aux approches existantes.