Un Segmenteur Vidéo Simple par le Suivi d'Objets le long de Trajectoires Axiales

La segmentation vidéo nécessite une segmentation et un suivi d'objets cohérents dans le temps. En raison de la dépendance quadratique par rapport à la taille de l'entrée, l'application directe de l'auto-attention à la segmentation vidéo avec des caractéristiques d'entrée en haute résolution pose des défis importants, entraînant souvent une capacité mémoire GPU insuffisante. Par conséquent, les segmenteurs vidéo modernes s'étendent soit à partir d'un segmenteur d'image sans incorporer aucune attention temporelle, soit recourent à une attention spatio-temporelle par fenêtre de manière naïve. Dans ce travail, nous présentons Axial-VS, un cadre général et simple qui améliore les segmenteurs vidéo en suivant les objets le long de trajectoires axiales. Ce cadre aborde la segmentation vidéo à travers deux sous-tâches : la segmentation court terme au sein d'une séquence (clip) et le suivi à long terme entre différentes séquences. Dans la première étape, Axial-VS augmente un segmenteur vidéo basé sur des séquences préexistantes grâce à l'attention axiale proposée, en suivant séquentiellement les objets le long des trajectoires verticales et horizontales au sein d'une séquence, ce qui améliore la cohérence temporelle en capturant les trajectoires de mouvement. La décomposition axiale réduit considérablement la complexité computationnelle pour les caractéristiques denses et surpasse l'attention spatio-temporelle par fenêtre en termes de qualité de segmentation. Dans la deuxième étape, nous utilisons davantage l'attention axiale aux requêtes d'objets dans les segmenteurs basés sur des séquences, qui sont apprises pour encoder des informations sur les objets, facilitant ainsi le suivi des objets entre différentes séquences et assurant une segmentation cohérente tout au long de la vidéo. Sans artifices superflus, Axial-VS présente des résultats de pointe sur des benchmarks de segmentation vidéo, soulignant son efficacité pour surmonter les limitations des segmenteurs vidéo modernes basés sur des séquences. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/TACJu/Axial-VS.