HyperAIHyperAI
il y a 16 jours

Localisation temporelle faiblement supervisée d'actions utilisant l'apprentissage profond de métriques

Ashraful Islam, Richard J. Radke
Localisation temporelle faiblement supervisée d'actions utilisant l'apprentissage profond de métriques
Résumé

La localisation temporelle des actions constitue une étape essentielle vers la compréhension des vidéos. La plupart des méthodes actuelles de localisation d’actions reposent sur des vidéos non coupées, munies d’étiquettes temporelles complètes pour chaque instance d’action. Toutefois, l’annotation des étiquettes d’actions ainsi que des bornes temporelles est coûteuse et longue. A cet effet, nous proposons une méthode de localisation temporelle des actions faiblement supervisée, qui n’exige que des étiquettes au niveau de la vidéo comme supervision durant l’entraînement. Nous introduisons un module de classification pour attribuer des étiquettes d’action à chaque segment vidéo, ainsi qu’un module d’apprentissage de métriques profondes pour apprendre la similarité entre différentes instances d’actions. Nous optimisons conjointement une perte binaire équilibrée et une perte de métrique à l’aide d’un algorithme de rétropropagation standard. Des expériences étendues démontrent l’efficacité de ces deux composants pour la localisation temporelle. Nous évaluons notre algorithme sur deux jeux de données de vidéos non coupées exigeants : THUMOS14 et ActivityNet1.2. Notre approche améliore le résultat actuel de l’état de l’art sur THUMOS14 de 6,5 % en mAP à un seuil d’IoU de 0,5, tout en obtenant des performances compétitives sur ActivityNet1.2.

Localisation temporelle faiblement supervisée d'actions utilisant l'apprentissage profond de métriques | Articles de recherche récents | HyperAI