Command Palette
Search for a command to run...
Localisation temporelle faiblement supervisée d’actions par réseaux d’évaluation basés sur la contraste
Localisation temporelle faiblement supervisée d’actions par réseaux d’évaluation basés sur la contraste
Gang Hua Nanning Zheng Zhenxing Niu Zhanning Gao Qilin Zhang Le Wang Ziyi Liu
Résumé
La localisation temporelle d’actions faiblement supervisée (WS-TAL) est une tâche prometteuse mais difficile, ne disposant pendant l’entraînement que d’étiquettes catégorielles d’actions au niveau des vidéos. Sans nécessiter d’annotations de bornes temporelles d’actions dans les données d’entraînement, la WS-TAL peut potentiellement exploiter des balises vidéo automatiquement récupérées comme étiquettes au niveau des vidéos. Toutefois, cette supervision grossière au niveau des vidéos entraîne inévitablement des ambiguïtés, particulièrement dans les vidéos non tronquées contenant plusieurs instances d’actions. Pour relever ce défi, nous proposons le réseau d’évaluation de localisation basée sur le contraste (CleanNet), accompagné d’un nouvel évaluateur de propositions d’actions, qui fournit une pseudo-supervision en exploitant le contraste temporel présent dans les prédictions de classification d’actions au niveau des snippets. Fondamentalement, ce nouvel évaluateur impose une contrainte supplémentaire de contraste temporel, de sorte que les propositions d’actions ayant un score élevé soient plus susceptibles de coïncider avec les véritables instances d’actions. En outre, le nouveau module de localisation d’actions est intégré de manière intrinsèque dans CleanNet, permettant un apprentissage end-to-end. Cela contraste avec de nombreuses méthodes existantes de WS-TAL, où la localisation d’actions constitue simplement une étape de post-traitement. Des expériences sur les jeux de données THUMOS14 et ActivityNet valident l’efficacité de CleanNet par rapport aux algorithmes état-de-l’art actuels en WS-TAL.