Command Palette
Search for a command to run...
Apprentissage de caractéristiques spatio-temporelles avec des réseaux de neurones convolutionnels 3D
Apprentissage de caractéristiques spatio-temporelles avec des réseaux de neurones convolutionnels 3D
Du Tran Lubomir Bourdev Rob Fergus Lorenzo Torresani Manohar Paluri
Résumé
Nous proposons une approche simple, mais efficace pour l'apprentissage de caractéristiques spatio-temporelles à l'aide de réseaux de neurones convolutifs tridimensionnels profonds (3D ConvNets) formés sur un grand ensemble de données vidéo supervisées. Nos résultats sont triples : 1) les 3D ConvNets sont plus adaptés à l'apprentissage de caractéristiques spatio-temporelles par rapport aux 2D ConvNets ; 2) une architecture homogène avec des noyaux de convolution de petite taille (3x3x3) dans toutes les couches est parmi les meilleures architectures pour les 3D ConvNets ; et 3) nos caractéristiques apprises, appelées C3D (Convolutional 3D), associées à un classifieur linéaire simple, surpassent les méthodes d'avant-garde sur quatre différents benchmarks et sont comparables aux meilleures méthodes actuelles sur les deux autres benchmarks. De plus, ces caractéristiques sont compactes : elles atteignent une précision de 52,8 % sur le jeu de données UCF101 avec seulement 10 dimensions, et leur calcul est très efficace grâce à l'inférence rapide des ConvNets. Enfin, elles sont conceptuellement très simples et faciles à former et à utiliser.