HyperAIHyperAI

Command Palette

Search for a command to run...

Tem-Adapter : Adapter le préentraînement image-texte pour la réponse à des questions vidéo

Guangyi Chen Xiao Liu Guangrun Wang Kun Zhang Philip H.S.Torr Xiao-Ping Zhang Yansong Tang

Résumé

Les modèles préentraînés vidéo-langage ont fait preuve d’un succès remarquable dans la guidance des tâches de réponse à des questions sur des vidéos (VideoQA). Toutefois, en raison de la longueur des séquences vidéo, l’entraînement de grands modèles basés sur des vidéos entraîne des coûts considérablement plus élevés que celui des modèles basés sur des images. Cela nous motive à exploiter les connaissances acquises par l’entraînement sur des images, malgré les différences évidentes entre les domaines image et vidéo. Pour combler ces écarts, nous proposons dans cet article Tem-Adapter, une méthode permettant d’apprendre les dynamiques temporelles et les sémantiques complexes grâce à un Aligneur Temporel visuel et un Aligneur Sémantique textuel. Contrairement aux méthodes classiques d’adaptation des connaissances préentraînées, qui se concentrent uniquement sur l’objectif de la tâche en aval, l’Aligneur Temporel introduit une tâche autoregressive guidée par le langage, visant à faciliter l’apprentissage des dépendances temporelles, en cherchant à prédire des états futurs à partir de indices historiques et d’une guidance linguistique décrivant l’évolution des événements. Par ailleurs, afin de réduire l’écart sémantique et d’adapter la représentation textuelle pour une meilleure description des événements, nous introduisons un Aligneur Sémantique, qui conçoit d’abord un modèle (template) pour fusionner les paires question-réponse en descriptions d’événements, puis apprend un décodeur Transformer en s’appuyant sur toute la séquence vidéo comme guide pour une révision fine. Nous évaluons Tem-Adapter ainsi que différentes méthodes d’adaptation préentraînée sur deux benchmarks VideoQA, et les améliorations significatives de performance démontrent l’efficacité de notre approche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp