Dîner sur les Détails : Réseaux d'Experts Guidés par LLM pour la Reconnaissance Fine des Aliments
Dans le domaine de la reconnaissance fine des aliments, les méthodes fondées sur l’apprentissage par sous-ensembles proposent une approche stratégique consistant à regrouper les classes en sous-ensembles afin de guider le processus d’entraînement. Notre étude présente une nouvelle méthode, désignée sous le nom de Dining on Details (DoD), un cadre innovant d’apprentissage par experts pour la classification des aliments. Cette méthode exploite habilement le pouvoir des grands modèles linguistiques pour construire des sous-ensembles de classes au sein du jeu de données. L’efficacité de DoD repose sur la robustesse de l’espace d’encodage multimodal ImageBind, capable de repérer des similitudes significatives entre des catégories variées. Entraînée via un processus d’apprentissage multi-tâches end-to-end, cette méthode améliore les performances dans la tâche de reconnaissance fine des aliments, se distinguant particulièrement pour des classes très similaires. Un avantage clé de DoD réside dans sa compatibilité universelle, permettant son intégration sans difficulté à tout architecture de classification existante. Notre validation approfondie de cette méthode sur divers jeux de données alimentaires et diverses architectures de base, tant convolutionnelles qu’basées sur des transformateurs, révèle des résultats compétitifs avec des gains significatifs de performance allant de 0,5 % à 1,61 %. Notamment, elle atteint des résultats de pointe sur le jeu de données Food-101.