ActionFlowNet : Apprentissage de la représentation du mouvement pour la reconnaissance d'actions
Même avec les récentes avancées des réseaux de neurones convolutifs (CNN) dans diverses tâches de reconnaissance visuelle, le système de pointe pour la reconnaissance d'actions s'appuie encore sur des caractéristiques de mouvement conçues manuellement, telles que le flux optique, pour atteindre les meilleures performances. Nous proposons un modèle d'apprentissage multitâche appelé ActionFlowNet pour former un réseau à flux unique directement à partir de pixels bruts afin d'estimer simultanément le flux optique et de reconnaître les actions grâce aux réseaux de neurones convolutifs, capturant ainsi à la fois l'apparence et le mouvement au sein d'un seul modèle. Nous fournissons également des éclairages sur la manière dont la qualité du flux optique appris affecte la reconnaissance d'actions. Notre modèle améliore considérablement l'exactitude de la reconnaissance d'actions, avec une marge importante de 31 % par rapport aux modèles CNN de pointe pour la reconnaissance d'actions formés sans données externes à grande échelle et sans entrée supplémentaire de flux optique. Sans préformation sur des ensembles de données externes étiquetés à grande échelle, notre modèle, en exploitant bien les informations de mouvement, atteint une précision de reconnaissance compétitive comparable à celle des modèles formés avec des ensembles de données étiquetés à grande échelle tels qu'ImageNet et Sport-1M.