HyperAIHyperAI
il y a 17 jours

TAda ! Convolutions temporellement adaptatives pour la compréhension vidéo

Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang, Ziwei Liu, Marcelo H. Ang Jr
TAda ! Convolutions temporellement adaptatives pour la compréhension vidéo
Résumé

Les convolutions spatiales sont largement utilisées dans de nombreux modèles profonds pour la vidéo. Ce paradigme repose fondamentalement sur l’hypothèse d’invariance spatio-temporelle, à savoir l’utilisation de poids partagés pour chaque position dans des cadres différents. Ce travail présente les convolutions adaptatives temporellement (TAdaConv) pour la compréhension vidéo, montrant que la calibration adaptative des poids le long de la dimension temporelle constitue une méthode efficace pour modéliser des dynamiques temporelles complexes dans les vidéos. Plus précisément, TAdaConv confère aux convolutions spatiales une capacité de modélisation temporelle en ajustant les poids de convolution pour chaque trame en fonction de son contexte temporel local et global. Par rapport aux opérations précédentes de modélisation temporelle, TAdaConv est plus efficace, car elle opère directement sur les noyaux de convolution plutôt que sur les caractéristiques, dont la dimension est d’un ordre de grandeur plus petite que les résolutions spatiales. En outre, cette calibration des noyaux accroît la capacité du modèle. Nous avons construit les réseaux TAda2D et TAdaConvNeXt en remplaçant les convolutions 2D des architectures ResNet et ConvNeXt par des TAdaConv, obtenant ainsi des performances au moins équivalentes ou supérieures à celles des approches de pointe sur plusieurs benchmarks de reconnaissance et de localisation d’actions vidéo. Nous démontrons également qu’en tant qu’opération facilement intégrable avec un surcoût computationnel négligeable, TAdaConv peut améliorer de manière significative de nombreux modèles vidéo existants, avec une marge convaincante.