HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de la détection d'actions par glimpses de frames dans les vidéos

Serena Yeung Olga Russakovsky Greg Mori Li Fei-Fei

Résumé

Dans cette étude, nous présentons une approche entièrement de bout en bout pour la détection d'actions dans les vidéos, capable d'apprendre à prédire directement les limites temporelles des actions. Notre intuition est que le processus de détection d'actions est naturellement un processus d'observation et de raffinement : observer des moments dans une vidéo et affiner des hypothèses sur le moment où une action se produit. À partir de cette constatation, nous formulons notre modèle comme un agent basé sur un réseau neuronal récurrent qui interagit avec une vidéo au fil du temps. L'agent observe les images de la vidéo et décide à la fois où regarder ensuite et quand émettre une prédiction. Comme la rétropropagation n'est pas suffisante dans ce contexte non différentiable, nous utilisons l'algorithme REINFORCE pour apprendre la politique décisionnelle de l'agent. Notre modèle obtient des résultats d'état de l'art sur les jeux de données THUMOS'14 et ActivityNet tout en ne considérant qu'une fraction (2 % ou moins) des images de la vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp