HyperAIHyperAI

Command Palette

Search for a command to run...

Localisation d'actions faiblement supervisée par un réseau de regroupement temporel parcimonieux

Phuc Nguyen* Ting Liu* Gautam Prasad Bohyung Han

Résumé

Nous proposons un algorithme de localisation temporelle d'actions faiblement supervisé sur des vidéos non tronquées en utilisant des réseaux neuronaux convolutifs. Notre algorithme apprend à partir des étiquettes de classe au niveau vidéo et prédit les intervalles temporels des actions humaines sans nécessiter d'annotations de localisation temporelle. Nous concevons notre réseau pour identifier un sous-ensemble clairsemé de segments clés associés aux actions cibles dans une vidéo grâce à un module d'attention, puis nous fusionnons ces segments clés par le biais d'un regroupement temporel adaptatif. Notre fonction de perte est composée de deux termes qui minimisent l'erreur de classification des actions au niveau vidéo et imposent la parcimonie de la sélection des segments. Au moment de l'inférence, nous extrayons et évaluons des propositions temporelles en utilisant les activations de classe temporelle et les attentions indépendantes de la classe pour estimer les intervalles temporels correspondant aux actions cibles. L'algorithme proposé obtient des résultats d'état de l'art sur l'ensemble de données THUMOS14 et une performance remarquable sur ActivityNet1.3, même avec sa supervision faible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp