HyperAIHyperAI
il y a 2 mois

Localisation d'actions faiblement supervisée par un réseau de regroupement temporel parcimonieux

Phuc Nguyen; Ting Liu; Gautam Prasad; Bohyung Han
Localisation d'actions faiblement supervisée par un réseau de regroupement temporel parcimonieux
Résumé

Nous proposons un algorithme de localisation temporelle d'actions faiblement supervisé sur des vidéos non tronquées en utilisant des réseaux neuronaux convolutifs. Notre algorithme apprend à partir des étiquettes de classe au niveau vidéo et prédit les intervalles temporels des actions humaines sans nécessiter d'annotations de localisation temporelle. Nous concevons notre réseau pour identifier un sous-ensemble clairsemé de segments clés associés aux actions cibles dans une vidéo grâce à un module d'attention, puis nous fusionnons ces segments clés par le biais d'un regroupement temporel adaptatif. Notre fonction de perte est composée de deux termes qui minimisent l'erreur de classification des actions au niveau vidéo et imposent la parcimonie de la sélection des segments. Au moment de l'inférence, nous extrayons et évaluons des propositions temporelles en utilisant les activations de classe temporelle et les attentions indépendantes de la classe pour estimer les intervalles temporels correspondant aux actions cibles. L'algorithme proposé obtient des résultats d'état de l'art sur l'ensemble de données THUMOS14 et une performance remarquable sur ActivityNet1.3, même avec sa supervision faible.

Localisation d'actions faiblement supervisée par un réseau de regroupement temporel parcimonieux | Articles de recherche récents | HyperAI