HyperAIHyperAI

Command Palette

Search for a command to run...

Text-Conditioned Resampler pour la compréhension des vidéos longues

Bruno Korbar Yongqin Xian Alessio Tonioni Andrew Zisserman Federico Tombari

Résumé

Dans cet article, nous présentons un module de rééchantillonnage vidéo conditionné par un texte (TCR) qui utilise un encodeur visuel pré-entraîné et figé ainsi qu’un grand modèle linguistique (LLM) pour traiter des séquences vidéo longues dans le cadre d’une tâche donnée. Le TCR localise les caractéristiques visuelles pertinentes à partir de la vidéo en fonction d’une condition textuelle, puis transmet ces informations à un LLM afin de générer une réponse textuelle. Grâce à sa conception légère et à l’utilisation de l’attention croisée, le TCR est capable de traiter plus de 100 images simultanément en utilisant uniquement une attention standard, sans nécessiter d’implémentations optimisées. Nous apportons les contributions suivantes : (i) nous concevons une architecture d’échantillonnage basée sur un transformateur capable de traiter des vidéos longues conditionnellement à une tâche, accompagnée d’une méthode d’entraînement permettant de relier efficacement des modèles visuels et linguistiques pré-entraînés ; (ii) nous identifions des tâches qui pourraient bénéficier d’une perception vidéo plus longue ; et (iii) nous validons empiriquement son efficacité sur une large gamme de tâches d’évaluation, incluant NextQA, EgoSchema et le défi EGO4D-LTA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Text-Conditioned Resampler pour la compréhension des vidéos longues | Articles | HyperAI