AutoLoc : Localisation temporelle d’actions faiblement supervisée dans des vidéos non découpées

La localisation d’actions temporelles (TAL) dans les vidéos non coupées est essentielle pour de nombreuses applications. Toutefois, l’étiquetage de la vérité terrain au niveau des segments (classe d’action et bornes temporelles) est extrêmement coûteux. Cela suscite un intérêt croissant pour aborder le TAL sous une forme de supervision faible, où seules des annotations au niveau de la vidéo sont disponibles durant l’apprentissage. Toutefois, les méthodes actuelles les plus avancées en TAL sous supervision faible se concentrent principalement sur la génération d’une séquence d’activation de classe (CAS) de qualité dans le temps, tout en appliquant une simple seuillage sur la CAS pour localiser les actions. Dans cet article, nous proposons tout d’abord un nouveau cadre de TAL sous supervision faible, appelé AutoLoc, permettant de prédire directement les bornes temporelles de chaque instance d’action. Nous introduisons une nouvelle fonction de perte, la perte contrastive externe-interne (OIC), capable de découvrir automatiquement la supervision au niveau des segments nécessaire à l’entraînement d’un prédicteur de bornes. Notre méthode obtient des performances nettement améliorées : à un seuil d’IoU de 0,5, elle améliore le mAP sur THUMOS’14 de 13,7 % à 21,2 %, et sur ActivityNet de 7,4 % à 27,3 %. Il est également encourageant de constater que notre méthode sous supervision faible atteint des résultats comparables à ceux de certaines méthodes sous supervision complète.