il y a 4 mois

Résumé

Dans ce travail, nous proposons une nouvelle représentation vidéo pour la classification d’actions, qui consiste à agréger les caractéristiques locales issues de convolutions sur l’ensemble de l’étendue spatio-temporelle de la vidéo. Pour cela, nous combinons des réseaux à deux voies d’avant-garde avec une agrégation de caractéristiques spatio-temporelles apprenables. L’architecture résultante est entraînable de manière end-to-end pour la classification sur l’ensemble de la vidéo. Nous étudions différentes stratégies de pooling à la fois dans l’espace et dans le temps, ainsi que diverses méthodes de combinaison des signaux provenant des différentes voies. Nous constatons que : (i) il est crucial de réaliser un pooling conjoint dans l’espace et dans le temps, mais que (ii) les voies d’apparence et de mouvement sont mieux représentées par des agrégations séparées. Enfin, nous démontrons que notre représentation dépasse largement l’architecture de base à deux voies (amélioration relative de 13 %) ainsi que d’autres méthodes de référence utilisant des architectures de base comparables, sur les benchmarks de classification vidéo HMDB51, UCF101 et Charades.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Reconnaissance D'action

Réseau De Neurones Convolutif

Traitement Vidéo

Approche/Framework

Vision Par Ordinateur

Tâche

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Reconnaissance D'action

Réseau De Neurones Convolutif

Traitement Vidéo

Approche/Framework

Vision Par Ordinateur

Tâche

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

ActionVLAD : apprentissage de l’agrégation spatio-temporelle pour la classification des actions | Articles | HyperAI

Command Palette

ActionVLAD : apprentissage de l’agrégation spatio-temporelle pour la classification des actions

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ActionVLAD : apprentissage de l’agrégation spatio-temporelle pour la classification des actions

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ActionVLAD : apprentissage de l’agrégation spatio-temporelle pour la classification des actions

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters