Modélisation de la complétude et séparation du contexte pour la localisation temporelle d’actions sous supervision faible

La localisation temporelle des actions est essentielle pour comprendre les vidéos non tronquées. Dans ce travail, nous identifions tout d’abord deux problèmes sous-étudiés posés par la supervision faible dans la localisation temporelle des actions : la modélisation de la complétude des actions et la séparation entre l’action et son contexte. Ensuite, en proposant une nouvelle architecture de réseau neuronal ainsi qu’une stratégie d’entraînement innovante, nous abordons explicitement ces deux problèmes. Plus précisément, afin de modéliser la complétude des actions, nous proposons un réseau neuronal à plusieurs branches, où chaque branche est contrainte de découvrir des parties d’actions distinctives. Les actions complètes peuvent ainsi être localisées en fusionnant les activations provenant de différentes branches. Par ailleurs, pour séparer les instances d’actions de leur contexte environnant, nous générons des exemples négatifs difficiles (hard negatives) pour l’entraînement en exploitant le fait a priori que les clips vidéo sans mouvement sont peu susceptibles d’être des actions. Des expériences menées sur les jeux de données THUMOS’14 et ActivityNet montrent que notre cadre surpasser les méthodes de pointe. En particulier, la moyenne du mAP sur ActivityNet v1.2 est significativement améliorée, passant de 18,0 % à 22,4 %. Le code source sera bientôt publié.