HyperAIHyperAI
il y a 17 jours

Apprentissage de contextes temporels locaux et globaux pour la segmentation sémantique vidéo

Guolei Sun, Yun Liu, Henghui Ding, Min Wu, Luc Van Gool
Apprentissage de contextes temporels locaux et globaux pour la segmentation sémantique vidéo
Résumé

L'information contextuelle joue un rôle central dans la segmentation sémantique vidéo (VSS). Ce papier synthétise les contextes pour la VSS sous deux aspects : les contextes temporels locaux (LTC), qui définissent les contextes issus des trames voisines, et les contextes temporels globaux (GTC), qui représentent les contextes tirés de toute la vidéo. Concernant les LTC, ils comprennent les contextes statiques et dynamiques, correspondant respectivement au contenu statique et au contenu en mouvement présents dans les trames adjacentes. Par le passé, les contextes statiques et dynamiques ont chacun fait l’objet d’études indépendantes. Toutefois, aucune recherche n’a été menée sur l’apprentissage simultané de ces deux types de contextes (fortement complémentaires). Ainsi, nous proposons une technique d’extraction de caractéristiques de coarse-to-fine (CFFM) afin d’apprendre une représentation unifiée des LTC. La CFFM se compose de deux composants : l’assemblage de caractéristiques coarse-to-fine (CFFA) et l’extraction de caractéristiques inter-trames (CFM). Le CFFA extrait les contextes statiques et dynamiques, tandis que le CFM exploite les informations utiles provenant des trames proches afin d’améliorer les caractéristiques cibles. Pour exploiter davantage les contextes temporels, nous proposons une extension appelée CFFM++, qui intègre également l’apprentissage des GTC à partir de l’ensemble de la vidéo. Plus précisément, nous échantillonnons uniformément certaines trames de la vidéo et extrayons des prototypes contextuels globaux via l’algorithme k-moyennes. Les informations contenues dans ces prototypes sont ensuite exploitées par le CFM afin de raffiner les caractéristiques cibles. Les résultats expérimentaux sur des benchmarks populaires montrent que CFFM et CFFM++ surpassent avantageusement les méthodes de pointe. Le code source est disponible à l’adresse suivante : https://github.com/GuoleiSun/VSS-CFFM