HyperAIHyperAI
il y a 11 jours

Réseau de convolution temporelle séparable en profondeur pour la segmentation d’actions

{Heiko Neumann, Wolfgang Mader, Christian Jarvers, Basavaraj Hampiholi}
Résumé

La segmentation fine-grainée d’actions temporelles dans des vidéos RGB longues et non tronquées constitue un sujet clé dans l’interaction visuelle homme-machine. Les approches récentes basées sur la convolution temporelle utilisent soit une architecture encodeur-décodeur (ED), soit des dilatations avec un facteur doublant dans des couches de convolution successives pour segmenter les actions dans les vidéos. Toutefois, les réseaux ED opèrent à une résolution temporelle réduite, tandis que les dilatations appliquées successivement entraînent un problème d’artefacts de grille. Nous proposons un réseau de convolution temporelle séparable en profondeur (DS-TCN), qui fonctionne à résolution temporelle complète et présente des effets de grille réduits. Le composant fondamental du DS-TCN est le bloc résiduel dilaté en profondeur (RDDB). Nous explorons le compromis entre l’utilisation de grands noyaux et des taux de dilatation faibles à l’aide du RDDB. Nous démontrons que notre DS-TCN est capable de capturer efficacement à la fois les dépendances à long terme et les indices temporels locaux. Évalué sur trois jeux de données de référence — GTEA, 50Salads et Breakfast —, notre modèle dépasse les performances des architectures ED-TCN et des baselines basées sur la dilatation, même avec un nombre de paramètres comparativement plus faible.

Réseau de convolution temporelle séparable en profondeur pour la segmentation d’actions | Articles de recherche récents | HyperAI