HyperAIHyperAI
il y a 16 jours

Apprentissage auto-supervisé pour tâches conjointes correspondance temporelle

Xueting Li, Sifei Liu, Shalini De Mello, Xiaolong Wang, Jan Kautz, Ming-Hsuan Yang
Apprentissage auto-supervisé pour tâches conjointes correspondance temporelle
Résumé

Cet article propose d’apprendre des correspondances denses fiables à partir de vidéos de manière auto-supervisée. Notre procédé d’apprentissage intègre deux tâches fortement corrélées : le suivi de grandes régions d’image et l’établissement d’associations à très haute résolution au niveau des pixels entre cadres vidéo consécutifs. Nous exploitons la synergie entre ces deux tâches grâce à une matrice d’affinité inter-cadres partagée, qui modélise simultanément les transitions entre cadres vidéo à la fois au niveau des régions et au niveau des pixels. Alors que la localisation au niveau des régions contribue à réduire les ambiguïtés dans le traitement fine-grained en restreignant les régions de recherche, la correspondance fine-grained fournit des caractéristiques bottom-up pour faciliter la localisation au niveau des régions. Notre méthode surpasse les méthodes auto-supervisées les plus avancées sur une variété de tâches de correspondance visuelle, notamment la propagation de segmentation d’objets et de parties, le suivi de points clés et le suivi d’objets. De plus, notre méthode auto-supervisée dépasse même la représentation de caractéristiques d’affinité entièrement supervisée obtenue à partir d’un ResNet-18 pré-entraîné sur ImageNet.