HyperAIHyperAI
il y a 2 mois

Réseaux de Résidus Spatio-temporels pour la Reconnaissance d'Actions Vidéo

Christoph Feichtenhofer; Axel Pinz; Richard P. Wildes
Réseaux de Résidus Spatio-temporels pour la Reconnaissance d'Actions Vidéo
Résumé

Les réseaux de neurones convolutifs à deux flux (ConvNets) ont montré des performances remarquables pour la reconnaissance d'actions humaines dans les vidéos. Récemment, les Réseaux Résiduels (ResNets) sont apparus comme une nouvelle technique permettant d'entraîner des architectures extrêmement profondes. Dans cet article, nous introduisons les ResNets spatio-temporels en combinant ces deux approches. Notre architecture novatrice généralise les ResNets pour le domaine spatio-temporel en introduisant des connexions résiduelles de deux manières. Premièrement, nous insérons des connexions résiduelles entre les voies d'apparence et de mouvement d'une architecture à deux flux afin de permettre l'interaction spatio-temporelle entre ces deux voies. Deuxièmement, nous transformons des ConvNets pré-entraînés sur des images en réseaux spatio-temporels en dotant ceux-ci de filtres convolutifs apprenables initialisés comme des connexions résiduelles temporelles et opérant sur des cartes de caractéristiques adjacentes dans le temps. Cette approche augmente progressivement le champ récepteur spatio-temporel au fur et à mesure que la profondeur du modèle s'accroît, intégrant naturellement les principes de conception des ConvNets sur images. Le modèle complet est entraîné de bout en bout pour permettre l'apprentissage hiérarchique de caractéristiques spatio-temporelles complexes. Nous évaluons notre nouveau ResNet spatio-temporel à l'aide de deux benchmarks largement utilisés pour la reconnaissance d'actions, où il dépasse l'état de l'art précédent.

Réseaux de Résidus Spatio-temporels pour la Reconnaissance d'Actions Vidéo | Articles de recherche récents | HyperAI