Command Palette
Search for a command to run...
Text-Conditioned Resampler pour la compréhension des vidéos longues
Text-Conditioned Resampler pour la compréhension des vidéos longues
Bruno Korbar Yongqin Xian Alessio Tonioni Andrew Zisserman Federico Tombari
Résumé
Dans cet article, nous présentons un module de rééchantillonnage vidéo conditionné par un texte (TCR) qui utilise un encodeur visuel pré-entraîné et figé ainsi qu’un grand modèle linguistique (LLM) pour traiter des séquences vidéo longues dans le cadre d’une tâche donnée. Le TCR localise les caractéristiques visuelles pertinentes à partir de la vidéo en fonction d’une condition textuelle, puis transmet ces informations à un LLM afin de générer une réponse textuelle. Grâce à sa conception légère et à l’utilisation de l’attention croisée, le TCR est capable de traiter plus de 100 images simultanément en utilisant uniquement une attention standard, sans nécessiter d’implémentations optimisées. Nous apportons les contributions suivantes : (i) nous concevons une architecture d’échantillonnage basée sur un transformateur capable de traiter des vidéos longues conditionnellement à une tâche, accompagnée d’une méthode d’entraînement permettant de relier efficacement des modèles visuels et linguistiques pré-entraînés ; (ii) nous identifions des tâches qui pourraient bénéficier d’une perception vidéo plus longue ; et (iii) nous validons empiriquement son efficacité sur une large gamme de tâches d’évaluation, incluant NextQA, EgoSchema et le défi EGO4D-LTA.