HyperAIHyperAI
il y a 11 jours

Apprentissage non supervisé de représentations visuelles avec regroupement sémantique

Xin Wen, Bingchen Zhao, Anlin Zheng, Xiangyu Zhang, Xiaojuan Qi
Apprentissage non supervisé de représentations visuelles avec regroupement sémantique
Résumé

Dans cet article, nous abordons le problème de l'apprentissage de représentations visuelles à partir de données scéniques non étiquetées. Les travaux existants ont démontré le potentiel d'exploiter la structure complexe inhérente aux données scéniques ; toutefois, ils s'appuient généralement sur des priorités artificielles de « présence d'objets » ou sur des tâches prétextes spécialisées pour construire un cadre d'apprentissage, ce qui peut nuire à la généralisation. À la place, nous proposons une méthode d'apprentissage contrastif basée sur des emplacements sémantiques dérivés des données, nommée SlotCon, pour une apprentissage conjoint de regroupement sémantique et de représentation. Le regroupement sémantique est réalisé en attribuant chaque pixel à un ensemble de prototypes apprenables, qui s'adaptent à chaque échantillon grâce à un pooling attentif sur les caractéristiques et permettent ainsi la formation de nouveaux emplacements. À partir des emplacements appris, dépendants des données, une objectif contrastif est utilisé pour l'apprentissage de représentations, ce qui améliore la discriminabilité des caractéristiques, tout en favorisant réciproquement le regroupement des pixels ayant une signification sémantique cohérente. Contrairement aux approches antérieures, en optimisant simultanément les deux objectifs couplés de regroupement sémantique et d'apprentissage contrastif, notre méthode évite les inconvénients des priorités artificielles et parvient à apprendre des représentations au niveau d'objets ou de groupes à partir d'images scéniques. Les expériences montrent que notre approche décompose efficacement des scènes complexes en groupes sémantiques pour l'apprentissage de caractéristiques, et apporte un bénéfice significatif aux tâches en aval, notamment la détection d'objets, la segmentation instance et la segmentation sémantique. Le code est disponible à l'adresse : https://github.com/CVMI-Lab/SlotCon.

Apprentissage non supervisé de représentations visuelles avec regroupement sémantique | Articles de recherche récents | HyperAI