il y a 2 mois

Contextualisation de groupe pour la reconnaissance vidéo

Hao, Yanbin ; Zhang, Hao ; Ngo, Chong-Wah ; He, Xiangnan

Résumé

L'apprentissage d'une représentation discriminante à partir de l'espace dynamique spatio-temporel complexe est essentiel pour la reconnaissance vidéo. Au-delà de ces unités de calcul spatio-temporel stylisées, le raffinement ultérieur des caractéristiques apprises avec des contextes axiaux s'est révélé prometteur pour atteindre cet objectif. Cependant, les travaux précédents se concentrent généralement sur l'utilisation d'un seul type de contexte pour calibrer l'ensemble des canaux de caractéristiques et peinent à s'appliquer aux activités vidéo variées. Ce problème peut être résolu en utilisant des attentions spatio-temporelles par paires pour recalculer la réponse des caractéristiques avec des contextes inter-axes, au prix de calculs lourds. Dans cet article, nous proposons une méthode efficace de raffinement des caractéristiques qui décompose les canaux de caractéristiques en plusieurs groupes et les affine séparément avec différents contextes axiaux en parallèle. Nous appelons cette calibration légère des caractéristiques la contextualisation par groupe (GC). Plus précisément, nous concevons une série d'affineurs élémentaires efficaces, à savoir ECal-G/S/T/L, dont les contextes axiaux sont des dynamiques d'information agrégées à partir d'autres axes, soit globalement, soit localement, pour contextualiser les groupes de canaux de caractéristiques. Le module GC peut être intégré de manière dense dans chaque couche résiduelle des réseaux vidéo pré-entraînés. Avec un surcoût computationnel minime, une amélioration constante est observée lorsqu'on intègre GC dans différents réseaux. En utilisant des affineurs pour imbriquer les caractéristiques avec quatre types différents de contextes en parallèle, on s'attend à ce que la représentation apprise soit plus résiliente face aux divers types d'activités. Sur des vidéos présentant une grande variabilité temporelle, il a été démontré expérimentalement que GC peut améliorer les performances des CNN 2D (par exemple TSN et TSM) jusqu'à un niveau comparable à celui des réseaux vidéo les plus avancés actuellement. Le code source est disponible à l'adresse suivante : https://github.com/haoyanbin918/Group-Contextualization.