HyperAIHyperAI

Command Palette

Search for a command to run...

ActionVLAD : apprentissage de l’agrégation spatio-temporelle pour la classification des actions

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

Résumé

Dans ce travail, nous proposons une nouvelle représentation vidéo pour la classification d’actions, qui consiste à agréger les caractéristiques locales issues de convolutions sur l’ensemble de l’étendue spatio-temporelle de la vidéo. Pour cela, nous combinons des réseaux à deux voies d’avant-garde avec une agrégation de caractéristiques spatio-temporelles apprenables. L’architecture résultante est entraînable de manière end-to-end pour la classification sur l’ensemble de la vidéo. Nous étudions différentes stratégies de pooling à la fois dans l’espace et dans le temps, ainsi que diverses méthodes de combinaison des signaux provenant des différentes voies. Nous constatons que : (i) il est crucial de réaliser un pooling conjoint dans l’espace et dans le temps, mais que (ii) les voies d’apparence et de mouvement sont mieux représentées par des agrégations séparées. Enfin, nous démontrons que notre représentation dépasse largement l’architecture de base à deux voies (amélioration relative de 13 %) ainsi que d’autres méthodes de référence utilisant des architectures de base comparables, sur les benchmarks de classification vidéo HMDB51, UCF101 et Charades.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp