TDS-CLIP : Réseau de Différence Temporelle latéral pour le Transfert d'Image à Vidéo par Apprentissage

Récemment, les grands modèles pré-entraînés de vision-langue (par exemple, CLIP) ont suscité une attention considérable grâce à leurs capacités représentatives puissantes. Cela inspire les chercheurs à transférer les connaissances de ces grands modèles pré-entraînés vers d'autres modèles spécifiques à des tâches, comme les modèles de reconnaissance d'actions vidéo (VAR), en utilisant particulièrement des réseaux latéraux pour améliorer l'efficacité du fine-tuning paramétrique efficace (PEFT). Cependant, les approches actuelles de transfert dans le domaine de la VAR tendent à transférer directement les connaissances figées des grands modèles pré-entraînés vers les réseaux de reconnaissance d'actions avec un coût minimal, plutôt que d'exploiter les capacités de modélisation temporelle propres aux modèles de reconnaissance d'actions. Par conséquent, dans cet article, nous proposons un réseau latéral à différences temporelles économisant la mémoire (TDS-CLIP) pour équilibrer le transfert de connaissances et la modélisation temporelle, évitant ainsi la rétropropagation dans les modèles à paramètres figés. Plus précisément, nous introduisons un adaptateur à différences temporelles (TD-Adapter), capable de capturer efficacement les différences temporelles locales dans les caractéristiques du mouvement afin de renforcer les capacités globales de modélisation temporelle du modèle. De plus, nous avons conçu un adaptateur d'amélioration latérale du mouvement (SME-Adapter) pour guider le réseau latéral proposé dans l'apprentissage efficace des informations riches sur le mouvement contenues dans les vidéos, améliorant ainsi la capacité du réseau latéral à capturer et apprendre ces informations sur le mouvement. Des expériences étendues sont menées sur trois ensembles de données de référence, incluant Something-Something V1 & V2 et Kinetics-400. Les résultats expérimentaux démontrent que notre approche atteint des performances compétitives.