HyperAIHyperAI

Command Palette

Search for a command to run...

Contextualisation de groupe pour la reconnaissance vidéo

Yanbin Hao Chong-Wah Ngo Hao Zhang* Xiangnan He

Résumé

L'apprentissage d'une représentation discriminante à partir de l'espace dynamique spatio-temporel complexe est essentiel pour la reconnaissance vidéo. Au-delà de ces unités de calcul spatio-temporel stylisées, le raffinement ultérieur des caractéristiques apprises avec des contextes axiaux s'est révélé prometteur pour atteindre cet objectif. Cependant, les travaux précédents se concentrent généralement sur l'utilisation d'un seul type de contexte pour calibrer l'ensemble des canaux de caractéristiques et peinent à s'appliquer aux activités vidéo variées. Ce problème peut être résolu en utilisant des attentions spatio-temporelles par paires pour recalculer la réponse des caractéristiques avec des contextes inter-axes, au prix de calculs lourds. Dans cet article, nous proposons une méthode efficace de raffinement des caractéristiques qui décompose les canaux de caractéristiques en plusieurs groupes et les affine séparément avec différents contextes axiaux en parallèle. Nous appelons cette calibration légère des caractéristiques la contextualisation par groupe (GC). Plus précisément, nous concevons une série d'affineurs élémentaires efficaces, à savoir ECal-G/S/T/L, dont les contextes axiaux sont des dynamiques d'information agrégées à partir d'autres axes, soit globalement, soit localement, pour contextualiser les groupes de canaux de caractéristiques. Le module GC peut être intégré de manière dense dans chaque couche résiduelle des réseaux vidéo pré-entraînés. Avec un surcoût computationnel minime, une amélioration constante est observée lorsqu'on intègre GC dans différents réseaux. En utilisant des affineurs pour imbriquer les caractéristiques avec quatre types différents de contextes en parallèle, on s'attend à ce que la représentation apprise soit plus résiliente face aux divers types d'activités. Sur des vidéos présentant une grande variabilité temporelle, il a été démontré expérimentalement que GC peut améliorer les performances des CNN 2D (par exemple TSN et TSM) jusqu'à un niveau comparable à celui des réseaux vidéo les plus avancés actuellement. Le code source est disponible à l'adresse suivante : https://github.com/haoyanbin918/Group-Contextualization.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp