Apprentissage d’un multi-sous-ensemble de classes pour la reconnaissance fine des aliments
La reconnaissance d’images alimentaires constitue une tâche complexe de vision par ordinateur, en raison du grand nombre de catégories alimentaires très fines. Les tâches de reconnaissance fine se concentrent sur l’apprentissage de détails discriminatifs subtils afin de distinguer des classes similaires. Dans cet article, nous proposons une nouvelle méthode visant à améliorer la classification des classes particulièrement difficiles à discriminer, basée sur l’apprentissage par multi-sous-ensembles. En utilisant un modèle pré-entraîné, nous organisons les classes en plusieurs sous-ensembles à l’aide d’une technique de clustering. Ensuite, nous intégrons ces sous-ensembles dans une architecture à plusieurs têtes. Cette structure comporte trois composants distincts : premièrement, nous utilisons plusieurs blocs partagés pour apprendre une représentation généralisée des données ; deuxièmement, nous mettons en œuvre plusieurs blocs spécialisés, chacun axé sur un sous-ensemble spécifique difficile à distinguer ; enfin, nous employons une couche entièrement connectée pour pondérer de manière end-to-end les différents sous-ensembles en combinant les sorties des neurones. Nous avons validé notre méthode sur deux récents modèles d’attention visuelle de pointe (vision transformers) utilisant trois jeux de données publics pour la reconnaissance alimentaire. Notre approche s’est révélée efficace pour mieux apprendre les classes confuses, et nous avons surpassé l’état de l’art sur les trois jeux de données.