HyperAIHyperAI

Command Palette

Search for a command to run...

OBJECTIF : Adapter les modèles d'image pour une reconnaissance efficace des actions vidéo

Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chen Chen Mu Li

Résumé

Les modèles vidéo récents basés sur les transformateurs d’image suivent principalement le paradigme « pré-entraînement sur images, puis finetuning » et ont obtenu des résultats remarquables sur plusieurs benchmarks vidéo. Toutefois, le finetuning complet d’un tel modèle vidéo peut s’avérer coûteux en termes de calcul et inutile, compte tenu de la capacité exceptionnelle de transfert démontrée par les modèles d’image pré-entraînés. Dans ce travail, nous proposons une nouvelle méthode pour adapter les modèles d’image pré-entraînés (Adapted Image Models, AIM) afin d’obtenir une compréhension vidéo efficace. En gelant le modèle d’image pré-entraîné et en ajoutant quelques adaptateurs légers, nous introduisons une adaptation spatiale, une adaptation temporelle et une adaptation conjointe, permettant progressivement au modèle d’image d’acquérir une capacité de raisonnement spatio-temporel. Nous montrons que notre méthode AIM atteint des performances compétitives, voire supérieures à celles des approches antérieures, tout en utilisant significativement moins de paramètres ajustables sur quatre benchmarks de reconnaissance d’actions vidéo. Grâce à sa simplicité, notre méthode est également généralement applicable à divers modèles d’image pré-entraînés, ouvrant ainsi la voie à l’exploitation de modèles fondamentaux d’image plus puissants à l’avenir. La page du projet est disponible à l’adresse \url{https://adapt-image-models.github.io/}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OBJECTIF : Adapter les modèles d'image pour une reconnaissance efficace des actions vidéo | Articles | HyperAI