Command Palette
Search for a command to run...
VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage
Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

Résumé
Les progrès récents des modèles vision-langage ont amélioré les performances en augmentant la longueur des tokens visuels, les rendant bien plus longs que les tokens textuels et entraînant une hausse significative des coûts computationnels. Toutefois, nous constatons que les tokens visuels générés par des encodeurs visuels populaires, tels que CLIP et SigLIP, présentent une redondance importante. Pour y remédier, nous proposons VisionZip, une méthode simple mais efficace qui sélectionne un ensemble de tokens informatifs à introduire dans le modèle langagier, réduisant ainsi la redondance des tokens visuels et améliorant l'efficacité sans compromettre les performances du modèle. La méthode VisionZip peut être largement appliquée aux tâches de compréhension d’images et de vidéos, et s’adapte particulièrement bien aux dialogues à plusieurs tours dans des scénarios du monde réel, où les approches antérieures peinent à performer. Les résultats expérimentaux montrent que VisionZip dépasse la méthode d’état de l’art précédente d’au moins 5 % de performance dans presque tous les cas. En outre, notre approche améliore de manière significative la vitesse d’inférence du modèle, accélérant le temps de pré-remplissage (prefilling) jusqu’à 8 fois, et permettant au modèle LLaVA-Next 13B d’inférer plus rapidement que le modèle LLaVA-Next 7B tout en obtenant de meilleurs résultats. Enfin, nous analysons les causes de cette redondance et encourageons la communauté à se concentrer sur l’extraction de caractéristiques visuelles de meilleure qualité, plutôt que sur l’augmentation pure de la longueur des tokens. Le code source est disponible à l’adresse suivante : https://github.com/dvlab-research/VisionZip.
Dépôts de code
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| visual-question-answering-on-mm-vet | VisionZip (Retain 128 Tokens, fine-tuning) | GPT-4 score: 32.9 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 64 Tokens, fine-tuning) | GPT-4 score: 30.2 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 128 Tokens) | GPT-4 score: 32.6 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 192 Tokens, fine-tuning) | GPT-4 score: 32.6 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 192 Tokens) | GPT-4 score: 31.7 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 64 Tokens) | GPT-4 score: 31.7 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.