ACM-Net : Réseau de modélisation du contexte d'action pour la localisation temporelle d'actions faiblement supervisée

La localisation temporelle d’actions faiblement supervisée vise à localiser les bornes temporelles des instances d’actions et à identifier la catégorie d’action correspondante à l’aide uniquement d’étiquettes au niveau de la vidéo. Les méthodes traditionnelles se concentrent principalement sur la séparation entre cadres d’arrière-plan et cadres d’avant-plan, en exploitant une seule branche d’attention et une séquence d’activation de classe. Toutefois, nous soutenons qu’outre les cadres distinctifs d’avant-plan et d’arrière-plan, il existe de nombreuses trames contextuelles sémantiquement ambigües. Il n’a pas de sens de regrouper ces trames contextuelles dans la même catégorie d’arrière-plan, car elles sont sémantiquement liées à une catégorie d’action spécifique. Par conséquent, il est difficile de supprimer efficacement les trames contextuelles d’action en ne disposant que d’une seule séquence d’activation de classe. Pour résoudre ce problème, nous proposons dans cet article un réseau de modélisation du contexte d’action, nommé ACM-Net, qui intègre un module d’attention à trois branches afin de mesurer simultanément la probabilité qu’un point temporel appartienne à une instance d’action, à un contexte ou à un arrière-plan non-action. En se basant sur les valeurs d’attention à trois branches obtenues, nous construisons trois séquences d’activation de classe distinctes pour représenter respectivement les instances d’actions, les contextes et les arrière-plans non-action. Pour évaluer l’efficacité de notre ACM-Net, nous menons des expériences approfondies sur deux jeux de données de référence, THUMOS-14 et ActivityNet-1.3. Les résultats expérimentaux montrent que notre méthode surpasser les méthodes actuelles de l’état de l’art, et même atteindre des performances comparables à celles des méthodes entièrement supervisées. Le code est disponible à l’adresse suivante : https://github.com/ispc-lab/ACM-Net