HyperAIHyperAI
il y a 17 jours

Catégorisation visuelle fine universelle par apprentissage guidé par des concepts

{Gui-Song Xia, Wei Ji, Beichen Zhou, Qi Bi}
Résumé

Les méthodes existantes de catégorisation visuelle fine-grain (FGVC) supposent que les sémantiques fines-grain résident dans les parties informatives d'une image. Cette hypothèse fonctionne bien sur des images favorables, centrées sur l'objet et prises en vue frontale, mais peut rencontrer de grandes difficultés dans de nombreux scénarios du monde réel, tels que les images centrées sur la scène (par exemple, vue de rue) ou les points de vue défavorables (par exemple, réidentification d'objets, télédétection). Dans de tels scénarios, l'activation erronée ou excessive de caractéristiques risque de perturber la sélection des parties et de dégrader la représentation fine-grain. Dans ce papier, nous nous inspirons pour concevoir un cadre universel de FGVC adapté aux scénarios du monde réel. Plus précisément, nous proposons un apprentissage guidé par des concepts (CGL), qui modélise les concepts d'une catégorie fine-grain comme une combinaison de concepts hérités de sa catégorie grossière sous-jacente et de concepts discriminants propres à cette catégorie. Ces concepts discriminants sont utilisés pour guider l'apprentissage de la représentation fine-grain. Plus spécifiquement, trois étapes clés sont conçues : l'extraction de concepts, la fusion de concepts et la contrainte de concepts. Par ailleurs, afin de combler l'écart entre les jeux de données FGVC dans les scénarios centrés sur la scène et les points de vue défavorables, nous proposons un nouveau jeu de données, le Fine-grained Land-cover Categorization Dataset (FGLCD), comprenant 59 994 échantillons fine-grain. Des expérimentations étendues montrent que le CGL proposé : 1) atteint des performances compétitives sur les FGVC traditionnels ; 2) obtient des résultats de pointe sur les scènes aériennes fine-grain et les scènes de rue centrées sur la scène ; 3) présente une bonne généralisation pour la réidentification d'objets et la détection fine-grain d'objets aériens. Le jeu de données et le code source seront disponibles à l'adresse suivante : https://github.com/BiQiWHU/CGL.

Catégorisation visuelle fine universelle par apprentissage guidé par des concepts | Articles de recherche récents | HyperAI