HyperAIHyperAI
il y a 2 mois

Échantillonnage discriminatif de propositions dans les transformateurs auto-supervisés pour la localisation d'objets faiblement supervisée

Shakeeb Murtaza; Soufiane Belharbi; Marco Pedersoli; Aydin Sarraf; Eric Granger
Échantillonnage discriminatif de propositions dans les transformateurs auto-supervisés pour la localisation d'objets faiblement supervisée
Résumé

Les drones sont utilisés dans un nombre croissant d'applications de reconnaissance visuelle. Un développement récent dans l'inspection des tours cellulaires est la surveillance des actifs par drone, où le vol autonome d'un drone est guidé par la localisation d'objets d'intérêt dans des images aériennes successives. Dans cet article, nous proposons une méthode pour entraîner des modèles de localisation d'objets faiblement supervisés (WSOL) en profondeur, basée uniquement sur les étiquettes de classe d'image, afin de localiser des objets avec une grande confiance. Pour entraîner notre localiseur, des étiquettes pseudo sont efficacement collectées à partir de transformateurs visuels auto-supervisés (SST). Cependant, comme les SST décomposent la scène en plusieurs cartes contenant diverses parties d'objets et ne reposent sur aucun signal de supervision explicite, elles ne peuvent pas distinguer l'objet d'intérêt des autres objets, comme requis par le WSOL. Pour résoudre ce problème, nous proposons d'utiliser les multiples cartes générées par les différentes têtes de transformateur pour acquérir des étiquettes pseudo pour l'entraînement d'un modèle WSOL en profondeur. Plus précisément, une nouvelle méthode de sélection discriminative de propositions (Discriminative Proposals Sampling - DiPS) est introduite, qui repose sur un classificateur CNN pour identifier des régions discriminatives. Ensuite, des pixels du premier plan et du fond sont échantillonnés à partir de ces régions afin d'entraîner un modèle WSOL pour générer des cartes d'activation capables de localiser avec précision les objets appartenant à une classe spécifique. Les résultats empiriques sur le jeu de données TelDrone difficile indiquent que notre approche proposée peut surpasser les méthodes de pointe sur une large gamme de valeurs seuil pour les cartes produites. Nous avons également calculé des résultats sur le jeu de données CUB, montrant que notre méthode peut être adaptée à d'autres tâches.

Échantillonnage discriminatif de propositions dans les transformateurs auto-supervisés pour la localisation d'objets faiblement supervisée | Articles de recherche récents | HyperAI