Command Palette
Search for a command to run...
Perte Fondée sur le Contexte Adversaire et Consciente du Fond pour la Localisation Temporelle d'Activités avec Supervision Faible
Perte Fondée sur le Contexte Adversaire et Consciente du Fond pour la Localisation Temporelle d'Activités avec Supervision Faible
Kyle Min Jason J. Corso
Résumé
La localisation temporelle des activités dans des vidéos non tronquées a fait l’objet de nombreuses études ces dernières années. Malgré les progrès récents, les méthodes existantes pour la localisation temporelle faiblement supervisée peinent à détecter les moments où une activité n’a pas lieu. Pour résoudre ce problème, nous proposons une nouvelle méthode nommée A2CL-PT. Notre approche considère deux triplets dans l’espace des caractéristiques : le premier est utilisé pour apprendre des caractéristiques discriminantes pour chaque classe d’activité, tandis que le second permet de distinguer les caractéristiques associées au fond (c’est-à-dire les caractéristiques sans activité) des caractéristiques liées aux activités, pour chaque vidéo. Pour améliorer davantage les performances, nous avons conçu un réseau à deux branches parallèles agissant de manière antagoniste : la première branche localise les activités les plus saillantes d’une vidéo, tandis que la seconde identifie d’autres activités complémentaires dans les parties non localisées de la vidéo. Des expériences étendues menées sur les jeux de données THUMOS14 et ActivityNet démontrent l’efficacité de la méthode proposée. Plus précisément, la moyenne du mAP aux seuils d’IoU compris entre 0,1 et 0,9 sur le jeu de données THUMOS14 est améliorée de manière significative, passant de 27,9 % à 30,0 %.