HyperAIHyperAI
il y a 11 jours

AutoLoc : Localisation temporelle d’actions faiblement supervisée dans des vidéos non découpées

{Shih-Fu Chang, Kazuyuki Miyazawa, Hang Gao, Zheng Shou, Lei Zhang}
AutoLoc : Localisation temporelle d’actions faiblement supervisée dans des vidéos non découpées
Résumé

La localisation d’actions temporelles (TAL) dans les vidéos non coupées est essentielle pour de nombreuses applications. Toutefois, l’étiquetage de la vérité terrain au niveau des segments (classe d’action et bornes temporelles) est extrêmement coûteux. Cela suscite un intérêt croissant pour aborder le TAL sous une forme de supervision faible, où seules des annotations au niveau de la vidéo sont disponibles durant l’apprentissage. Toutefois, les méthodes actuelles les plus avancées en TAL sous supervision faible se concentrent principalement sur la génération d’une séquence d’activation de classe (CAS) de qualité dans le temps, tout en appliquant une simple seuillage sur la CAS pour localiser les actions. Dans cet article, nous proposons tout d’abord un nouveau cadre de TAL sous supervision faible, appelé AutoLoc, permettant de prédire directement les bornes temporelles de chaque instance d’action. Nous introduisons une nouvelle fonction de perte, la perte contrastive externe-interne (OIC), capable de découvrir automatiquement la supervision au niveau des segments nécessaire à l’entraînement d’un prédicteur de bornes. Notre méthode obtient des performances nettement améliorées : à un seuil d’IoU de 0,5, elle améliore le mAP sur THUMOS’14 de 13,7 % à 21,2 %, et sur ActivityNet de 7,4 % à 27,3 %. Il est également encourageant de constater que notre méthode sous supervision faible atteint des résultats comparables à ceux de certaines méthodes sous supervision complète.

AutoLoc : Localisation temporelle d’actions faiblement supervisée dans des vidéos non découpées | Articles de recherche récents | HyperAI