Débruitage de frontière pour la localisation d'activités vidéo

La localisation d'activités vidéo vise à comprendre le contenu sémantique dans des vidéos longues et non coupées, et à extraire les actions d'intérêt. Les actions extraites, accompagnées de leurs positions de début et de fin, peuvent être utilisées pour la génération de points forts, la détection temporelle d'actions, etc. Malheureusement, l'apprentissage des limites exactes des activités est très difficile en raison de la continuité temporelle des activités et du manque souvent de transitions nettes entre les actions. De plus, la définition du début et de la fin des événements est subjective, ce qui peut perturber le modèle. Pour atténuer l'ambiguïté des limites, nous proposons d'étudier le problème de localisation d'activités vidéo sous l'angle du débruitage. Plus précisément, nous proposons un modèle encodeur-décodeur nommé DenoiseLoc. Lors de l'entraînement, un ensemble d'intervalles d'action est généré aléatoirement à partir de la vérité terrain avec une échelle de bruit contrôlée. Nous tentons ensuite d'inverser ce processus par le débruitage des limites, permettant au localiseur de prédire les activités avec des limites précises et entraînant une convergence plus rapide. Les expériences montrent que DenoiseLoc progresse dans plusieurs tâches de compréhension d'activités vidéo. Par exemple, nous observons une amélioration de +12,36 % en moyenne du mAP sur le jeu de données QV-Highlights et +1,64 % du [email protected] sur le jeu de données THUMOS'14 par rapport à la ligne de base. De plus, DenoiseLoc atteint des performances state-of-the-art sur les jeux de données TACoS et MAD, mais avec beaucoup moins de prédictions comparativement aux autres méthodes actuelles.