Apprentissage de caractéristiques spatio-temporelles avec des réseaux de neurones convolutionnels 3D

Nous proposons une approche simple, mais efficace pour l'apprentissage de caractéristiques spatio-temporelles à l'aide de réseaux de neurones convolutifs tridimensionnels profonds (3D ConvNets) formés sur un grand ensemble de données vidéo supervisées. Nos résultats sont triples : 1) les 3D ConvNets sont plus adaptés à l'apprentissage de caractéristiques spatio-temporelles par rapport aux 2D ConvNets ; 2) une architecture homogène avec des noyaux de convolution de petite taille (3x3x3) dans toutes les couches est parmi les meilleures architectures pour les 3D ConvNets ; et 3) nos caractéristiques apprises, appelées C3D (Convolutional 3D), associées à un classifieur linéaire simple, surpassent les méthodes d'avant-garde sur quatre différents benchmarks et sont comparables aux meilleures méthodes actuelles sur les deux autres benchmarks. De plus, ces caractéristiques sont compactes : elles atteignent une précision de 52,8 % sur le jeu de données UCF101 avec seulement 10 dimensions, et leur calcul est très efficace grâce à l'inférence rapide des ConvNets. Enfin, elles sont conceptuellement très simples et faciles à former et à utiliser.