Command Palette
Search for a command to run...
Réseau de convolution temporelle séparable en profondeur pour la segmentation d’actions
Réseau de convolution temporelle séparable en profondeur pour la segmentation d’actions
Heiko Neumann Wolfgang Mader Christian Jarvers Basavaraj Hampiholi
Résumé
La segmentation fine-grainée d’actions temporelles dans des vidéos RGB longues et non tronquées constitue un sujet clé dans l’interaction visuelle homme-machine. Les approches récentes basées sur la convolution temporelle utilisent soit une architecture encodeur-décodeur (ED), soit des dilatations avec un facteur doublant dans des couches de convolution successives pour segmenter les actions dans les vidéos. Toutefois, les réseaux ED opèrent à une résolution temporelle réduite, tandis que les dilatations appliquées successivement entraînent un problème d’artefacts de grille. Nous proposons un réseau de convolution temporelle séparable en profondeur (DS-TCN), qui fonctionne à résolution temporelle complète et présente des effets de grille réduits. Le composant fondamental du DS-TCN est le bloc résiduel dilaté en profondeur (RDDB). Nous explorons le compromis entre l’utilisation de grands noyaux et des taux de dilatation faibles à l’aide du RDDB. Nous démontrons que notre DS-TCN est capable de capturer efficacement à la fois les dépendances à long terme et les indices temporels locaux. Évalué sur trois jeux de données de référence — GTEA, 50Salads et Breakfast —, notre modèle dépasse les performances des architectures ED-TCN et des baselines basées sur la dilatation, même avec un nombre de paramètres comparativement plus faible.