Réseaux de Segments Temporels : Vers de Bonnes Pratiques pour la Reconnaissance d'Actions Profondes

Les réseaux de neurones convolutifs profonds ont connu un grand succès pour la reconnaissance visuelle dans les images fixes. Cependant, en ce qui concerne la reconnaissance d'actions dans les vidéos, l'avantage par rapport aux méthodes traditionnelles n'est pas aussi évident. Le présent article vise à découvrir les principes permettant de concevoir des architectures de ConvNet efficaces pour la reconnaissance d'actions dans les vidéos et à apprendre ces modèles avec un nombre limité d'échantillons d'entraînement.Notre première contribution est le réseau de segments temporels (TSN), un cadre novateur pour la reconnaissance d'actions basée sur les vidéos. Ce réseau repose sur l'idée de modélisation de structures temporelles à long terme. Il combine une stratégie d'échantillonnage temporel épars et une supervision au niveau vidéo pour permettre un apprentissage efficace et performant utilisant l'intégralité de la vidéo d'action. La deuxième contribution concerne notre étude sur une série de bonnes pratiques pour l'apprentissage de ConvNets sur des données vidéo, grâce à l'utilisation du réseau de segments temporels. Notre approche obtient des performances au niveau de l'état de l'art sur les ensembles de données HMDB51 (69,4 %) et UCF101 (94,2 %). Nous visualisons également les modèles ConvNet appris, ce qui démontre qualitativement l'efficacité du réseau de segments temporels et des bonnes pratiques proposées.