HyperAIHyperAI
il y a 11 jours

Réseau de mémoire d’unité d’action pour la localisation temporelle d’actions faiblement supervisée

Wang Luo, Tianzhu Zhang, Wenfei Yang, Jingen Liu, Tao Mei, Feng Wu, Yongdong Zhang
Réseau de mémoire d’unité d’action pour la localisation temporelle d’actions faiblement supervisée
Résumé

La localisation temporelle d’actions faiblement supervisée vise à détecter et localiser des actions dans des vidéos non tronquées en n’utilisant que des étiquettes au niveau de la vidéo pendant l’entraînement. Toutefois, en l’absence d’étiquettes au niveau des trames, il est difficile d’assurer une complétude de localisation tout en atténuant les interférences provenant du fond. Dans cet article, nous proposons un Réseau à Mémoire d’Unités d’Action (AUMN) pour la localisation temporelle d’actions faiblement supervisée, capable de surmonter ces deux défis en apprenant une banque de mémoire d’unités d’action. Dans le cadre de l’AUMN proposé, deux modules d’attention sont conçus pour mettre à jour de manière adaptative la banque de mémoire et apprendre des classifieurs spécifiques aux unités d’action. En outre, trois mécanismes efficaces (diversité, homogénéité et parcimonie) sont introduits pour guider la mise à jour du réseau de mémoire. À notre connaissance, il s’agit du premier travail à modéliser explicitement les unités d’action à l’aide d’un réseau à mémoire. Des résultats expérimentaux étendus sur deux benchmarks standards (THUMOS14 et ActivityNet) démontrent que notre AUMN se distingue favorablement des méthodes de pointe. Plus précisément, la moyenne de mAP aux seuils d’IoU allant de 0,1 à 0,5 sur le jeu de données THUMOS14 est améliorée de manière significative, passant de 47,0 % à 52,1 %.