Command Palette
Search for a command to run...
Classification hiérarchique pondérée temporellement pour la segmentation d’actions non supervisée
Classification hiérarchique pondérée temporellement pour la segmentation d’actions non supervisée
M. Saquib Sarfraz extsuperscript1,7 Naila Murray extsuperscript2 Vivek Sharma extsuperscript1,3,4 Ali Diba extsuperscript5 Luc Van Gool extsuperscript5,6 Rainer Stiefelhagen extsuperscript1
Résumé
La segmentation d'actions consiste à inférer les limites de concepts visuels sémantiquement cohérents dans les vidéos et est une exigence importante pour de nombreuses tâches de compréhension vidéo. Pour cette tâche et d'autres tâches de compréhension vidéo, les approches supervisées ont obtenu des performances encourageantes mais nécessitent un grand volume d'annotations détaillées au niveau des images. Nous présentons une approche entièrement automatique et non supervisée pour segmenter les actions dans une vidéo, sans nécessiter aucune formation. Notre proposition est un algorithme efficace de regroupement hiérarchique pondéré temporellement, capable de regrouper les images sémantiquement cohérentes de la vidéo. Notre principale découverte est que représenter une vidéo par un graphe de plus proche voisin (1-nearest neighbor) en tenant compte du progrès temporel suffit pour former des clusters d'images sémantiquement et temporellement cohérents, où chaque cluster peut représenter une certaine action dans la vidéo. De plus, nous établissons des baselines non supervisées solides pour la segmentation d'actions et montrons des améliorations significatives des performances par rapport aux méthodes non supervisées publiées sur cinq jeux de données de segmentation d'actions difficiles. Notre code est disponible à l'adresse suivante : https://github.com/ssarfraz/FINCH-Clustering/tree/master/TW-FINCH