HyperAIHyperAI
il y a 17 jours

Side4Video : Réseau latéral spatio-temporel pour un apprentissage par transfert image-vidéo à faible consommation de mémoire

Huanjin Yao, Wenhao Wu, Zhiheng Li
Side4Video : Réseau latéral spatio-temporel pour un apprentissage par transfert image-vidéo à faible consommation de mémoire
Résumé

Les grands modèles pré-entraînés en vision par ordinateur atteignent des résultats remarquables. Toutefois, le fine-tuning complet de ces modèles volumineux pour des tâches spécifiques, en particulier dans le domaine de la compréhension vidéo, peut s'avérer extrêmement coûteux en ressources computationnelles. Des études récentes se concentrent désormais sur le transfert d'apprentissage efficace d'images vers des vidéos. Néanmoins, les méthodes actuelles de fine-tuning efficaces négligent souvent l'utilisation mémoire durant l'entraînement, ainsi que l'exploration du transfert de modèles de grande taille vers le domaine vidéo. Dans cet article, nous proposons une nouvelle architecture, le Side Network Spatial-Temporel, conçu pour un fine-tuning mémoire-économe des grands modèles d’image vers la compréhension vidéo, nommé Side4Video. Plus précisément, nous introduisons un réseau latéral léger, spatial-temporel, attaché à un modèle vision pré-entraîné gelé. Cette approche évite la rétropropagation à travers le modèle lourd pré-entraîné et exploite des caractéristiques spatiales multi-niveaux issues du modèle d’image original. L’architecture extrêmement économe en mémoire permet de réduire de 75 % l’utilisation mémoire par rapport aux méthodes basées sur des adaptateurs. Grâce à cette efficacité, nous pouvons transférer un modèle ViT-E colossal (4,4 milliards de paramètres) pour des tâches de compréhension vidéo, soit un modèle 14 fois plus grand que ViT-L (304 millions de paramètres). Notre méthode obtient des performances remarquables sur diverses bases de données vidéo, couvrant à la fois des tâches unimodales et multimodales (par exemple, reconnaissance d’actions et recherche vidéo-texte), notamment sur Something-Something V1 & V2 (67,3 % et 74,6 %), Kinetics-400 (88,6 %), MSR-VTT (52,3 %), MSVD (56,1 %) et VATEX (68,8 %). Nous mettons à disposition notre code à l’adresse suivante : https://github.com/HJYao00/Side4Video.

Side4Video : Réseau latéral spatio-temporel pour un apprentissage par transfert image-vidéo à faible consommation de mémoire | Articles de recherche récents | HyperAI