HyperAIHyperAI
il y a 17 jours

OBJECTIF : Adapter les modèles d'image pour une reconnaissance efficace des actions vidéo

Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li
OBJECTIF : Adapter les modèles d'image pour une reconnaissance efficace des actions vidéo
Résumé

Les modèles vidéo récents basés sur les transformateurs d’image suivent principalement le paradigme « pré-entraînement sur images, puis finetuning » et ont obtenu des résultats remarquables sur plusieurs benchmarks vidéo. Toutefois, le finetuning complet d’un tel modèle vidéo peut s’avérer coûteux en termes de calcul et inutile, compte tenu de la capacité exceptionnelle de transfert démontrée par les modèles d’image pré-entraînés. Dans ce travail, nous proposons une nouvelle méthode pour adapter les modèles d’image pré-entraînés (Adapted Image Models, AIM) afin d’obtenir une compréhension vidéo efficace. En gelant le modèle d’image pré-entraîné et en ajoutant quelques adaptateurs légers, nous introduisons une adaptation spatiale, une adaptation temporelle et une adaptation conjointe, permettant progressivement au modèle d’image d’acquérir une capacité de raisonnement spatio-temporel. Nous montrons que notre méthode AIM atteint des performances compétitives, voire supérieures à celles des approches antérieures, tout en utilisant significativement moins de paramètres ajustables sur quatre benchmarks de reconnaissance d’actions vidéo. Grâce à sa simplicité, notre méthode est également généralement applicable à divers modèles d’image pré-entraînés, ouvrant ainsi la voie à l’exploitation de modèles fondamentaux d’image plus puissants à l’avenir. La page du projet est disponible à l’adresse \url{https://adapt-image-models.github.io/}.

OBJECTIF : Adapter les modèles d'image pour une reconnaissance efficace des actions vidéo | Articles de recherche récents | HyperAI