il y a 2 mois

Au-delà des courts extraits : Réseaux profonds pour la classification vidéo

Joe Yue-Hei Ng; Matthew Hausknecht; Sudheendra Vijayanarasimhan; Oriol Vinyals; Rajat Monga; George Toderici

Résumé

Les réseaux de neurones convolutifs (CNNs) ont été largement utilisés pour les problèmes de reconnaissance d'images, obtenant des résultats de pointe en matière de reconnaissance, détection, segmentation et recherche. Dans cette étude, nous proposons et évaluons plusieurs architectures de réseaux de neurones profonds afin de combiner les informations d'images au sein d'une vidéo sur des périodes plus longues que celles tentées précédemment. Nous présentons deux méthodes capables de traiter des vidéos de longue durée. La première méthode explore diverses architectures de regroupement temporel des caractéristiques convolutives, examinant les différents choix de conception qui doivent être faits lors de l'adaptation d'un CNN à cette tâche. La seconde méthode modélise explicitement la vidéo comme une séquence ordonnée d'images. Pour ce faire, nous utilisons un réseau neuronal récurrent qui emploie des cellules à mémoire à court et long terme (LSTM) connectées à la sortie du CNN sous-jacent. Nos meilleurs réseaux montrent des améliorations significatives des performances par rapport aux résultats précédemment publiés sur le jeu de données Sports 1 million (73,1% contre 60,9%) et sur les jeux de données UCF-101 avec (88,6% contre 88,0%) et sans informations supplémentaires sur le flux optique (82,6% contre 72,8%).