Une approche par convolution 3D pour la segmentation spectrale d'objets dans l'espace et le temps

Nous formulons le problème de segmentation d'objets dans les vidéos comme un problème de partitionnement de graphe dans l'espace et le temps, où les nœuds sont des pixels et leurs relations forment des voisinages locaux. Nous soutenons que le cluster le plus fort dans ce graphe au niveau des pixels représente la segmentation d'objet saillante. Nous calculons le cluster principal en utilisant une technique de filtrage 3D novatrice et rapide qui trouve la solution de clustering spectral, c'est-à-dire le vecteur propre principal de la matrice d'adjacence du graphe, sans construire explicitement cette matrice – ce qui serait impossible à réaliser. Notre méthode est basée sur l'itération de puissance pour trouver le vecteur propre principal d'une matrice, que nous prouvons être équivalente à l'exécution d'un ensemble spécifique de convolutions 3D dans le volume de caractéristiques espace-temps. Cela nous permet d'éviter la création de la matrice et d'avoir une implémentation parallèle rapide sur GPU. Nous montrons que notre méthode est beaucoup plus rapide que l'itération de puissance classique appliquée directement à la matrice d'adjacence. Contrairement aux autres travaux, notre approche vise spécifiquement à préserver la cohérence des objets dans l'espace et le temps au niveau des pixels. Pour cela, elle nécessite des caractéristiques puissantes au niveau pixel par image. Cela la rend parfaitement adaptée pour intégrer les résultats d'un réseau de base ou d'autres méthodes et améliorer rapidement leur solution sans supervision. Dans nos expériences, nous obtenons une amélioration constante avec le même ensemble de paramètres hyperparamétriques par rapport aux meilleures méthodes actuelles sur l'ensemble de données DAVIS-2016, tant pour les tâches non supervisées que semi-supervisées. Nous obtenons également des résultats excellents sur l'ensemble de données bien connu SegTrackv2.