HyperAIHyperAI
il y a 4 mois

ZeroI2V : Adaptation Zéro Coût des Transformers Pré-entraînés de l'Image à la Vidéo

Xinhao Li; Yuhan Zhu; Limin Wang
ZeroI2V : Adaptation Zéro Coût des Transformers Pré-entraînés de l'Image à la Vidéo
Résumé

L'adaptation des modèles d'images au domaine vidéo est apparue comme une paradigme efficace pour résoudre les tâches de reconnaissance vidéo. En raison du grand nombre de paramètres et de la transférabilité efficace des modèles d'images, effectuer un ajustement complet est moins efficace et même inutile. Ainsi, les recherches récentes se concentrent sur l'adaptation image-vidéo à faible coût en paramètres. Cependant, ces stratégies d'adaptation entraînent inévitablement des coûts computationnels supplémentaires pour traiter l'écart entre les domaines et la modélisation temporelle dans les vidéos. Dans cet article, nous présentons une nouvelle paradigme d'adaptation (ZeroI2V) permettant de transférer les transformateurs d'images vers des tâches de reconnaissance vidéo (c'est-à-dire introduire un coût supplémentaire nul aux modèles originaux lors de l'inférence). Pour atteindre cet objectif, nous proposons deux conceptions clés. Premièrement, afin de capturer la dynamique dans les vidéos et de réduire la difficulté de l'adaptation image-vidéo, nous exploitons la flexibilité de l'auto-attention et introduisons une attention à double tête spatiale-temporelle (STDHA). Cette approche confère efficacement aux transformateurs d'images une capacité de modélisation temporelle sans ajouter aucun paramètre ni coût computationnel supplémentaire. Deuxièmement, pour gérer l'écart entre les domaines des images et des vidéos, nous proposons une stratégie d'adaptation linéaire qui utilise des adaptateurs linéaires légers placés en densité pour transférer entièrement les modèles d'images figés vers la reconnaissance vidéo. Grâce à cette conception linéaire personnalisée, tous les nouveaux adaptateurs peuvent être facilement fusionnés avec les modules originaux par reparamétrage structurel après l'apprentissage, permettant ainsi un coût supplémentaire nul lors de l'inférence. Des expériences étendues sur des benchmarks représentatifs de reconnaissance vidéo supervisée en totalité et par quelques exemples montrent que ZeroI2V peut égaler ou même surpasser les méthodes précédentes de pointe tout en offrant une supériorité en termes d'efficacité paramétrique et d'inférence.