Réseaux de Convolution Temporelle pour la Segmentation et la Détection d'Actions

La capacité d'identifier et de segmenter temporellement des actions humaines fines tout au long d'une vidéo est cruciale pour la robotique, la surveillance, l'éducation et bien d'autres domaines. Les approches typiques décomposent ce problème en deux étapes : extraction initiale de caractéristiques spatio-temporelles locales à partir des images vidéo, puis alimentation de ces caractéristiques dans un classifieur temporel qui capture les motifs temporels de haut niveau. Nous introduisons une nouvelle classe de modèles temporels, que nous appelons Réseaux de Convolutions Temporels (RCT) [Temporal Convolutional Networks (TCNs)], qui utilisent une hiérarchie de convolutions temporelles pour effectuer une segmentation ou une détection d'actions fines. Notre RCT Encodeur-Décodeur utilise des opérations de poolage et de rééchantillonnage pour capturer efficacement les motifs temporels à long terme, tandis que notre RCT Dilaté utilise des convolutions dilatées. Nous montrons que les RCT sont capables de capturer les compositions d'actions, les durées des segments et les dépendances à long terme, et qu'ils sont plus d'un ordre de grandeur plus rapides à entraîner que les Réseaux Neuronaux Récursifs basés sur LSTM concurrents. Nous appliquons ces modèles à trois jeux de données fins et difficiles, et nous montrons des améliorations importantes par rapport à l'état de l'art.