HyperAIHyperAI

Command Palette

Search for a command to run...

LLaMA-VID : Une image vaut deux tokens dans les grands modèles de langage.

Yanwei Li Chengyao Wang Jiaya Jia

Résumé

Dans cette étude, nous présentons une nouvelle méthode pour relever le défi de la génération de jetons dans les modèles vision-langage (VLMs) destinés à la compréhension des vidéos et des images, appelée LLaMA-VID. Bien que les VLMs actuels soient performants dans des tâches telles que la légendage d'images et la réponse à des questions visuelles, ils rencontrent des charges de calcul importantes lors du traitement de vidéos longues en raison du nombre excessif de jetons visuels. LLaMA-VID résout ce problème en représentant chaque image avec deux types de jetons distincts : le jeton contexte et le jeton contenu. Le jeton contexte encode le contexte global de l'image en fonction de l'entrée utilisateur, tandis que le jeton contenu encapsule les indices visuels présents dans chaque image. Cette stratégie à double jeton réduit considérablement la charge liée aux vidéos longues tout en préservant les informations cruciales. En général, LLaMA-VID permet aux cadres existants de prendre en charge des vidéos d'une durée d'une heure et repousse leurs limites supérieures grâce à un jeton contexte supplémentaire. Il est prouvé que cette méthode surpasse les approches précédentes sur la plupart des benchmarks basés sur des vidéos ou des images. Le code source est disponible à l'adresse suivante : https://github.com/dvlab-research/LLaMA-VID.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp