HyperAIHyperAI

Command Palette

Search for a command to run...

DSANet : Réseau d’agrégation de segments dynamiques pour l’apprentissage des représentations au niveau vidéo

Résumé

La modélisation temporelle à longue et à courte portée constitue deux aspects complémentaires et essentiels de la reconnaissance vidéo. La plupart des méthodes de pointe se concentrent principalement sur la modélisation spatio-temporelle à courte portée, puis combinent les prédictions au niveau des snippets (segments courts) par moyennage afin d’obtenir la prédiction finale au niveau vidéo. En conséquence, leurs prédictions au niveau vidéo ne prennent pas en compte les caractéristiques spatio-temporelles relatives à l’évolution du contenu vidéo le long de la dimension temporelle. Dans ce travail, nous introduisons un nouveau module, appelé Dynamic Segment Aggregation (DSA), conçu pour capturer les relations entre les snippets. Plus précisément, nous proposons de générer un noyau dynamique pour une opération de convolution, permettant d’aggréger de manière adaptative les informations temporelles à longue portée entre snippets adjacents. Le module DSA est un composant efficace, facile à intégrer (plug-and-play), et peut être combiné avec des modèles existants basés sur des clips (tels que TSM, I3D) afin de réaliser une modélisation à longue portée puissante avec un surcoût minimal. L’architecture vidéo finale, baptisée DSANet, est ainsi obtenue. Nous menons des expérimentations étendues sur plusieurs benchmarks de reconnaissance vidéo (Mini-Kinetics-200, Kinetics-400, Something-Something V1 et ActivityNet) afin de démontrer son avantage. Notre module DSA s’avère bénéfique de manière significative pour divers modèles de reconnaissance vidéo. Par exemple, lorsqu’il est intégré à I3D avec un réseau ResNet-50, le taux de précision top-1 sur Kinetics-400 passe de 74,9 % à 78,2 %. Le code source est disponible à l’adresse suivante : https://github.com/whwu95/DSANet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DSANet : Réseau d’agrégation de segments dynamiques pour l’apprentissage des représentations au niveau vidéo | Articles | HyperAI