HyperAIHyperAI
il y a 8 jours

Apprentissage contrastif à niveau de pixel spatio-temporel fondé sur le transfert de domaine sans source pour la segmentation sémantique vidéo

Shao-Yuan Lo, Poojan Oza, Sumanth Chennupati, Alejandro Galindo, Vishal M. Patel
Apprentissage contrastif à niveau de pixel spatio-temporel fondé sur le transfert de domaine sans source pour la segmentation sémantique vidéo
Résumé

L’adaptation de domaine non supervisée (UDA) pour la segmentation sémantique permet de transférer les connaissances étiquetées provenant d’un domaine source vers un domaine cible non étiqueté, en exploitant à la fois les données du domaine source et celles du domaine cible. Toutefois, l’accès aux données du domaine source est souvent restreint ou impossible dans des scénarios réels, ce qui limite la praticabilité de l’UDA. Pour surmonter cette contrainte, des travaux récents se sont orientés vers le cadre d’adaptation de domaine sans source (SFDA), qui vise à adapter un modèle entraîné sur le domaine source vers le domaine cible sans avoir accès aux données du domaine source. Néanmoins, les approches SFDA existantes utilisent uniquement des informations au niveau de l’image, ce qui les rend sous-optimales dans les applications vidéo. Ce papier étudie le SFDA pour la segmentation sémantique vidéo (VSS), en exploitant l’information temporelle afin d’améliorer l’adaptation vidéo. Plus précisément, nous proposons une nouvelle méthode, appelée apprentissage contrastif pixel-level spatio-temporel (STPL), qui tire pleinement parti des informations spatio-temporelles pour mieux faire face à l’absence de données du domaine source. Le STPL apprend explicitement les corrélations sémantiques entre les pixels dans l’espace spatio-temporel, fournissant ainsi une auto-supervision puissante pour l’adaptation au domaine cible non étiqueté. Des expériences étendues montrent que STPL atteint des performances de pointe sur les benchmarks de VSS, surpassant les approches UDA et SFDA actuelles. Le code est disponible à l’adresse suivante : https://github.com/shaoyuanlo/STPL

Apprentissage contrastif à niveau de pixel spatio-temporel fondé sur le transfert de domaine sans source pour la segmentation sémantique vidéo | Articles de recherche récents | HyperAI