HyperAIHyperAI
il y a 11 jours

Référentiel linguistique pour la compréhension de vidéos longues

Kumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park, Michael S. Ryoo
Référentiel linguistique pour la compréhension de vidéos longues
Résumé

Le langage est devenu une modalité majeure en vision par ordinateur avec l’émergence des modèles linguistiques à grande échelle (LLM). Bien qu’ils soient capables de traiter des contextes longs, leur efficacité dans la gestion des informations à long terme diminue progressivement avec la longueur des entrées. Ce phénomène devient particulièrement critique dans des applications telles que la compréhension de vidéos longues. Dans cet article, nous proposons un Langage Repository (LangRepo) pour les LLM, qui conserve des informations concises et structurées sous forme d’une représentation interprétable (c’est-à-dire entièrement textuelle). Notre repository est mis à jour de manière itérative à partir de morceaux vidéo à plusieurs échelles temporelles. Nous introduisons des opérations d’écriture et de lecture, qui se concentrent sur l’élimination des redondances textuelles et l’extraction d’informations à différentes échelles temporelles. Le cadre proposé est évalué sur des benchmarks de réponse à des questions visuelles en zero-shot, notamment EgoSchema, NExT-QA, IntentQA et NExT-GQA, où il atteint des performances de pointe pour sa taille. Notre code est disponible à l’adresse suivante : https://github.com/kkahatapitiya/LangRepo.

Référentiel linguistique pour la compréhension de vidéos longues | Articles de recherche récents | HyperAI