Évaluation de l'Actionness à l'aide de Réseaux Neuronaux Convolutifs Hybrides Complètement Convolutionnels

L'« actionness » a été introduite pour quantifier la probabilité de contenir une instance d'action générique à un emplacement spécifique. Une estimation précise et efficace de l'« actionness » est importante dans l'analyse vidéo et peut bénéficier à d'autres tâches connexes telles que la reconnaissance d'actions et la détection d'actions. Cet article présente une nouvelle architecture profonde pour l'estimation de l'« actionness », appelée réseau entièrement convolutif hybride (H-FCN), qui est composé d'un réseau entièrement convolutif d'apparence (A-FCN) et d'un réseau entièrement convolutif de mouvement (M-FCN). Ces deux réseaux FCN exploitent la forte capacité des modèles profonds à estimer des cartes d'« actionness » sous les angles de l'apparence statique et du mouvement dynamique, respectivement. De plus, la nature entièrement convolutive de l'H-FCN lui permet de traiter efficacement des vidéos de tailles arbitraires. Des expériences ont été menées sur les ensembles de données difficiles de Stanford40, UCF Sports et JHMDB pour vérifier l'efficacité de l'H-FCN dans l'estimation de l'« actionness ». Ces expériences montrent que notre méthode atteint des performances supérieures à celles des méthodes précédentes. En outre, nous appliquons les cartes d'« actionness » estimées à la génération de propositions d'action et à la détection d'action. Nos cartes d'« actionness » améliorent considérablement les performances actuelles de ces tâches.Note: « Actionness » n'est pas un terme couramment utilisé en français dans le domaine académique ou technologique, donc il a été conservé tel quel avec une explication initiale.