Tem-Adapter : Adapter le préentraînement image-texte pour la réponse à des questions vidéo

Les modèles préentraînés vidéo-langage ont fait preuve d’un succès remarquable dans la guidance des tâches de réponse à des questions sur des vidéos (VideoQA). Toutefois, en raison de la longueur des séquences vidéo, l’entraînement de grands modèles basés sur des vidéos entraîne des coûts considérablement plus élevés que celui des modèles basés sur des images. Cela nous motive à exploiter les connaissances acquises par l’entraînement sur des images, malgré les différences évidentes entre les domaines image et vidéo. Pour combler ces écarts, nous proposons dans cet article Tem-Adapter, une méthode permettant d’apprendre les dynamiques temporelles et les sémantiques complexes grâce à un Aligneur Temporel visuel et un Aligneur Sémantique textuel. Contrairement aux méthodes classiques d’adaptation des connaissances préentraînées, qui se concentrent uniquement sur l’objectif de la tâche en aval, l’Aligneur Temporel introduit une tâche autoregressive guidée par le langage, visant à faciliter l’apprentissage des dépendances temporelles, en cherchant à prédire des états futurs à partir de indices historiques et d’une guidance linguistique décrivant l’évolution des événements. Par ailleurs, afin de réduire l’écart sémantique et d’adapter la représentation textuelle pour une meilleure description des événements, nous introduisons un Aligneur Sémantique, qui conçoit d’abord un modèle (template) pour fusionner les paires question-réponse en descriptions d’événements, puis apprend un décodeur Transformer en s’appuyant sur toute la séquence vidéo comme guide pour une révision fine. Nous évaluons Tem-Adapter ainsi que différentes méthodes d’adaptation préentraînée sur deux benchmarks VideoQA, et les améliorations significatives de performance démontrent l’efficacité de notre approche.