HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptation à double voie des Transformers d'images à vidéos

Jungin Park Jiyoung Lee Kwanghoon Sohn

Résumé

Dans cet article, nous transférons efficacement la puissance de représentation supérieure des modèles fondamentaux d'images, tels que ViT et Swin, à la compréhension vidéo en utilisant seulement quelques paramètres entraînables. Les méthodes d'adaptation précédentes ont simultanément pris en compte la modélisation spatiale et temporelle avec un module apprenable unifié, mais elles n'ont pas pleinement exploité les capacités de représentation des transformateurs d'images. Nous soutenons que l'architecture à double voie (two-stream) populaire dans les modèles vidéo peut atténuer ce problème. Nous proposons une nouvelle adaptation DualPath séparée en deux voies : une voie spatiale et une voie temporelle, où un adaptateur de goulot d'étranglement léger est utilisé dans chaque bloc de transformateur. En particulier pour la modélisation dynamique temporelle, nous intégrons des images consécutives dans un ensemble de cadres en grille pour imiter précisément la capacité des transformateurs visuels à extrapoler les relations entre les jetons. De plus, nous menons une investigation approfondie des multiples baselines sous un angle unifié dans le domaine de la compréhension vidéo et les comparons avec DualPath. Les résultats expérimentaux sur quatre benchmarks de reconnaissance d'actions démontrent que les transformateurs d'images pré-entraînés avec DualPath peuvent être généralisés efficacement au-delà du domaine de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp