HyperAIHyperAI
il y a 11 jours

K-moyennes pour la segmentation d'instances non supervisée à l'aide d'un transformateur auto-supervisé

{Lee HongChul, Lee MinYoung, Park JaeEon, Lim SeongTaek}
Résumé

La segmentation d’instances est une tâche fondamentale en vision par ordinateur qui attribue chaque pixel à une classe appropriée et localise les objets au sein de boîtes englobantes. Toutefois, la collecte de labels de segmentation au niveau des pixels est plus coûteuse en ressources et en temps que la collecte de labels de classification ou de détection. Dans cet article, nous proposons une nouvelle approche, appelée raffinement itératif des masques par un transformateur auto-supervisé (IMST), qui réalise une segmentation d’instances non supervisée indépendante des classes grâce à un simple regroupement par K-means et un transformateur vision auto-supervisé. IMST génère des étiquettes pseudo-vérité terrain pouvant être utilisées pour entraîner un modèle de segmentation d’instances standard. Ces étiquettes pseudo-étiquettes montrent une amélioration des performances sur plusieurs jeux de données. Le modèle de segmentation d’instances entraîné sur ces étiquettes pseudo-étiquettes dépasse les méthodes d’état de l’art en segmentation d’instances non supervisée sur COCO20k (+4,0 de précision moyenne (AP)) et sur COCO val2017 (+2,6 AP), sans aucune modification de la fonction de perte ou de l’architecture. Nous démontrons que notre méthode peut être étendue à des tâches telles que la découverte d’objets uniques ou multiples, ainsi qu’au fin-tuning supervisé de la segmentation d’instances, tout en surpassant les approches antérieures.

K-moyennes pour la segmentation d'instances non supervisée à l'aide d'un transformateur auto-supervisé | Articles de recherche récents | HyperAI