HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de la représentation spatio-temporelle avec diffusion locale et globale

Zhaofan Qiu†, Ting Yao‡, Chong-Wah Ngo§, Xinmei Tian†, and Tao Mei‡

Résumé

Les Réseaux Neuronaux Convolutifs (CNN) sont considérés comme une classe puissante de modèles pour les problèmes de reconnaissance visuelle. Néanmoins, les filtres convolutifs dans ces réseaux sont des opérations locales qui ignorent la dépendance à longue portée. Ce défaut devient encore plus prononcé particulièrement pour la reconnaissance vidéo, car la vidéo est un média informationnellement dense avec des variations temporelles complexes. Dans cet article, nous présentons un nouveau cadre visant à améliorer l'apprentissage des représentations spatio-temporelles par Diffusion Locale et Globale (LGD). Plus précisément, nous construisons une nouvelle architecture de réseau neuronal qui apprend les représentations locales et globales en parallèle. Cette architecture est composée de blocs LGD, où chaque bloc met à jour les caractéristiques locales et globales en modélisant les diffusions entre ces deux représentations. Les diffusions interagissent efficacement les deux aspects de l'information, c'est-à-dire localisée et holistique, pour une méthode d'apprentissage des représentations plus puissante. De plus, un classifieur noyau est introduit pour combiner les représentations provenant des deux aspects pour la reconnaissance vidéo. Nos réseaux LGD obtiennent des améliorations nettes sur les grands ensembles de données de classification vidéo Kinetics-400 et Kinetics-600 par rapport aux meilleurs concurrents, avec des gains respectivement de 3,5 % et 0,7 %. Nous examinons également davantage la généralisation des représentations locales et globales produites par nos réseaux LGD pré-entraînés sur quatre différents benchmarks pour les tâches de reconnaissance d'actions vidéo et de détection d'actions spatio-temporelles. Des performances supérieures à plusieurs techniques de pointe sur ces benchmarks sont rapportées. Le code est disponible à : https://github.com/ZhaofanQiu/local-and-global-diffusion-networks.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de la représentation spatio-temporelle avec diffusion locale et globale | Articles | HyperAI