Text-Conditioned Resampler pour la compréhension des vidéos longues

Dans cet article, nous présentons un module de rééchantillonnage vidéo conditionné par un texte (TCR) qui utilise un encodeur visuel pré-entraîné et figé ainsi qu’un grand modèle linguistique (LLM) pour traiter des séquences vidéo longues dans le cadre d’une tâche donnée. Le TCR localise les caractéristiques visuelles pertinentes à partir de la vidéo en fonction d’une condition textuelle, puis transmet ces informations à un LLM afin de générer une réponse textuelle. Grâce à sa conception légère et à l’utilisation de l’attention croisée, le TCR est capable de traiter plus de 100 images simultanément en utilisant uniquement une attention standard, sans nécessiter d’implémentations optimisées. Nous apportons les contributions suivantes : (i) nous concevons une architecture d’échantillonnage basée sur un transformateur capable de traiter des vidéos longues conditionnellement à une tâche, accompagnée d’une méthode d’entraînement permettant de relier efficacement des modèles visuels et linguistiques pré-entraînés ; (ii) nous identifions des tâches qui pourraient bénéficier d’une perception vidéo plus longue ; et (iii) nous validons empiriquement son efficacité sur une large gamme de tâches d’évaluation, incluant NextQA, EgoSchema et le défi EGO4D-LTA.