il y a 2 mois

R-C3D : Réseau de convolution 3D par région pour la détection d'activités temporelles

Huijuan Xu; Abir Das; Kate Saenko

Résumé

Nous abordons le problème de détection d'activités dans des flux vidéo continus et non coupés. Cette tâche est complexe et nécessite l'extraction de caractéristiques spatio-temporelles significatives pour capturer les activités, ainsi que la localisation précise des temps de début et de fin de chaque activité. Nous présentons un nouveau modèle, le Réseau 3D à Convolutions Régionales (R-C3D), qui encode les flux vidéo à l'aide d'un réseau neuronal convolutif entièrement tridimensionnel, génère ensuite des régions temporelles candidates contenant des activités, et enfin classe ces régions sélectionnées en activités spécifiques. Les calculs sont optimisés grâce au partage des caractéristiques convolutives entre les pipelines de proposition et de classification. Le modèle complet est entraîné de bout en bout avec des pertes de localisation et de classification conjointement optimisées. L'approche R-C3D est plus rapide que les méthodes existantes (569 images par seconde sur une seule carte graphique Titan X Maxwell) et obtient des résultats d'état de l'art sur THUMOS'14. Nous démontrons également que notre modèle constitue un cadre général pour la détection d'activités qui ne repose pas sur des hypothèses concernant les propriétés spécifiques d'un ensemble de données, en évaluant notre approche sur ActivityNet et Charades. Notre code est disponible à l'adresse http://ai.bu.edu/r-c3d/.