Command Palette
Search for a command to run...
Convolution Temporelle à Long Terme pour la Reconnaissance d'Actions
Convolution Temporelle à Long Terme pour la Reconnaissance d'Actions
Gül Varol Ivan Laptev Cordelia Schmid
Résumé
Les actions humaines typiques durent plusieurs secondes et présentent une structure spatio-temporelle caractéristique. Les méthodes récentes tentent de capturer cette structure et d'apprendre des représentations d'actions à l'aide de réseaux de neurones convolutifs. Cependant, ces représentations sont généralement apprises au niveau de quelques images vidéo, ne modélisant pas les actions dans leur étendue temporelle complète. Dans ce travail, nous apprenons des représentations vidéo en utilisant des réseaux de neurones avec des convolutions temporelles à long terme (LTC). Nous montrons que les modèles LTC-CNN avec une étendue temporelle augmentée améliorent la précision de la reconnaissance d'actions. Nous étudions également l'impact de différentes représentations de bas niveau, telles que les valeurs brutes des pixels vidéo et les champs de vecteurs optiques, et démontrons l'importance d'une estimation de flux optique de haute qualité pour l'apprentissage de modèles d'actions précis. Nous rapportons des résultats à l'état de l'art sur deux benchmarks difficiles pour la reconnaissance d'actions humaines : UCF101 (92,7 %) et HMDB51 (67,2 %).