LLaMA-VID : Une image vaut deux tokens dans les grands modèles de langage.

Dans cette étude, nous présentons une nouvelle méthode pour relever le défi de la génération de jetons dans les modèles vision-langage (VLMs) destinés à la compréhension des vidéos et des images, appelée LLaMA-VID. Bien que les VLMs actuels soient performants dans des tâches telles que la légendage d'images et la réponse à des questions visuelles, ils rencontrent des charges de calcul importantes lors du traitement de vidéos longues en raison du nombre excessif de jetons visuels. LLaMA-VID résout ce problème en représentant chaque image avec deux types de jetons distincts : le jeton contexte et le jeton contenu. Le jeton contexte encode le contexte global de l'image en fonction de l'entrée utilisateur, tandis que le jeton contenu encapsule les indices visuels présents dans chaque image. Cette stratégie à double jeton réduit considérablement la charge liée aux vidéos longues tout en préservant les informations cruciales. En général, LLaMA-VID permet aux cadres existants de prendre en charge des vidéos d'une durée d'une heure et repousse leurs limites supérieures grâce à un jeton contexte supplémentaire. Il est prouvé que cette méthode surpasse les approches précédentes sur la plupart des benchmarks basés sur des vidéos ou des images. Le code source est disponible à l'adresse suivante : https://github.com/dvlab-research/LLaMA-VID.