Réseau de Relations Centré sur l'Acteur

Les approches actuelles de pointe pour la localisation spatio-temporelle des actions s'appuient sur des détections au niveau des images et modélisent le contexte temporel à l'aide de réseaux de neurones convolutifs 3D (3D ConvNets). Dans ce travail, nous allons plus loin en modélisant les relations spatio-temporelles afin de capturer les interactions entre les acteurs humains, les objets pertinents et les éléments de la scène, essentiels pour différencier des actions humaines similaires. Notre approche est faiblement supervisée et exploite automatiquement les éléments pertinents grâce à un réseau relationnel centré sur l'acteur (Actor-Centric Relational Network, ACRN). L'ACRN calcule et accumule des informations relationnelles paires à partir des caractéristiques de l'acteur et de la scène globale, générant ainsi des caractéristiques relationnelles pour la classification des actions. Il est mis en œuvre sous forme de réseaux de neurones et peut être entraîné conjointement avec un système existant de détection d'actions. Nous montrons que l'ACRN surpasses les approches alternatives qui capturent des informations relationnelles, et que le cadre proposé améliore les performances de pointe sur JHMDB et AVA. Une visualisation des caractéristiques relationnelles apprises confirme que notre approche est capable d'accorder une attention aux relations pertinentes pour chaque action.