HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage des sous-événements latents dans les vidéos d'activités à l'aide de filtres d'attention temporelle

Piergiovanni AJ Fan Chenyou Ryoo Michael S.

Résumé

Dans cet article, nous introduisons pour la première fois le concept de filtres d’attention temporelle, et décrivons leur utilisation pour la reconnaissance d’activités humaines à partir de vidéos. De nombreuses activités de haut niveau sont généralement composées de plusieurs parties temporelles (par exemple, sous-événements) présentant des durées ou vitesses différentes. Notre objectif est de permettre au modèle d’apprendre explicitement cette structure temporelle à l’aide de plusieurs filtres d’attention, et d’en tirer parti. Nos filtres temporels sont conçus pour être entièrement différentiables, ce qui permet une formation end-to-end des filtres temporels conjointement avec les architectures de réseaux de neurones convolutifs basées sur des trames ou sur des segments. Cet article présente une méthode d’apprentissage d’un ensemble de filtres d’attention temporelle statiques optimaux, partagés entre différentes vidéos, et étend cette approche à l’ajustement dynamique des filtres d’attention pour chaque vidéo de test grâce à des réseaux récurrents à mémoire à long court terme (LSTM). Cela permet à nos filtres d’attention temporelle d’apprendre des sous-événements latents spécifiques à chaque activité. Nous confirmons expérimentalement que le concept proposé de filtres d’attention temporelle améliore la reconnaissance d’activités, et visualisons les sous-événements latents appris.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage des sous-événements latents dans les vidéos d'activités à l'aide de filtres d'attention temporelle | Articles | HyperAI