HyperAIHyperAI
il y a 11 jours

Apprentissage d’un réseau à rang faible auto-supervisé pour la segmentation sémantique faiblement et semi-supervisée en une seule étape

Junwen Pan, Pengfei Zhu, Kaihua Zhang, Bing Cao, Yu Wang, Dingwen Zhang, Junwei Han, Qinghua Hu
Apprentissage d’un réseau à rang faible auto-supervisé pour la segmentation sémantique faiblement et semi-supervisée en une seule étape
Résumé

La segmentation sémantique avec un nombre limité d’étiquettes, telle que la segmentation sémantique faiblement supervisée (WSSS) et la segmentation sémantique semi-supervisée (SSSS), constitue une tâche difficile qui suscite un intérêt croissant ces dernières années. La plupart des méthodes de pointe en WSSS adoptent une stratégie d’apprentissage multi-stades sophistiquée afin d’estimer des pseudo-étiquettes aussi précises que possible, mais elles souffrent d’une complexité élevée du modèle. En revanche, une autre ligne de recherche consiste à entraîner un unique réseau avec des étiquettes au niveau de l’image en une seule phase d’apprentissage. Toutefois, cette approche unistage se révèle souvent insuffisante en raison de l’effet cumulatif des erreurs d’estimation des pseudo-étiquettes. Pour remédier à ce problème, ce papier propose un réseau auto-supervisé à représentation basse-rang (SLRNet) pour la WSSS et la SSSS unistage. Le SLRNet exploite une auto-supervision croisée entre vues : il prédit simultanément plusieurs représentations basse-rang attentives complémentaires issues de différentes vues d’une même image, afin d’apprendre des pseudo-étiquettes précises. Plus précisément, nous reformulons l’apprentissage des représentations basse-rang comme un problème de factorisation matricielle collective, que nous optimisons conjointement avec l’apprentissage du réseau de manière end-to-end. La représentation basse-rang ainsi obtenue élimine les informations bruitées tout en capturant des sémantiques stables à travers différentes vues, ce qui la rend robuste aux variations d’entrée et réduit ainsi le surapprentissage aux erreurs d’auto-supervision. Le SLRNet offre ainsi un cadre unifié unistage pour diverses configurations de segmentation sémantique efficace en étiquettes : 1) WSSS avec des données étiquetées au niveau de l’image ; 2) SSSS avec un petit nombre d’étiquettes au niveau des pixels ; 3) SSSS avec un petit nombre d’étiquettes au niveau des pixels et un grand nombre d’étiquettes au niveau de l’image. Des expériences étendues sur les jeux de données Pascal VOC 2012, COCO et L2ID démontrent que notre SLRNet surpasser les méthodes de pointe en WSSS et SSSS dans diverses configurations, prouvant ainsi sa bonne généralisation et son efficacité.

Apprentissage d’un réseau à rang faible auto-supervisé pour la segmentation sémantique faiblement et semi-supervisée en une seule étape | Articles de recherche récents | HyperAI