HyperAIHyperAI
il y a 2 mois

Réseau de neurones convolutif spatio-temporel pour la segmentation d'objets vidéo

Kai Xu; Longyin Wen; Guorong Li; Liefeng Bo; Qingming Huang
Réseau de neurones convolutif spatio-temporel pour la segmentation d'objets vidéo
Résumé

Dans cet article, nous présentons un modèle de réseau neuronal convolutif spatio-temporel (CNN) unifié et entraînable de bout en bout pour la segmentation d'objets dans les vidéos (VOS). Ce modèle est composé de deux branches, à savoir la branche de cohérence temporelle et la branche de segmentation spatiale. Plus précisément, la branche de cohérence temporelle, préentraînée de manière antagoniste à partir de données vidéo non étiquetées, est conçue pour capturer les indices dynamiques d'apparence et de mouvement des séquences vidéo afin de guider la segmentation d'objets. La branche de segmentation spatiale se concentre sur la segmentation précise des objets en fonction des indices d'apparence et de mouvement appris. Pour obtenir des résultats de segmentation précis, nous concevons un processus allant du grossier au fin pour appliquer séquentiellement un module d'attention conçu sur des cartes de caractéristiques multi-échelles, puis les concaténer pour produire la prédiction finale. De cette façon, la branche de segmentation spatiale est contrainte de se concentrer progressivement sur les régions d'objets. Ces deux branches sont conjointement affinées sur des séquences de segmentation vidéo dans une approche de bout en bout. Plusieurs expériences ont été menées sur trois jeux de données difficiles (à savoir DAVIS-2016, DAVIS-2017 et Youtube-Object) pour montrer que notre méthode obtient des performances favorables par rapport aux méthodes les plus avancées actuellement disponibles. Le code source est disponible à l'adresse suivante : https://github.com/longyin880815/STCNN.

Réseau de neurones convolutif spatio-temporel pour la segmentation d'objets vidéo | Articles de recherche récents | HyperAI