HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 mois

VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage

Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage

Résumé

Les progrès récents des modèles vision-langage ont amélioré les performances en augmentant la longueur des tokens visuels, les rendant bien plus longs que les tokens textuels et entraînant une hausse significative des coûts computationnels. Toutefois, nous constatons que les tokens visuels générés par des encodeurs visuels populaires, tels que CLIP et SigLIP, présentent une redondance importante. Pour y remédier, nous proposons VisionZip, une méthode simple mais efficace qui sélectionne un ensemble de tokens informatifs à introduire dans le modèle langagier, réduisant ainsi la redondance des tokens visuels et améliorant l'efficacité sans compromettre les performances du modèle. La méthode VisionZip peut être largement appliquée aux tâches de compréhension d’images et de vidéos, et s’adapte particulièrement bien aux dialogues à plusieurs tours dans des scénarios du monde réel, où les approches antérieures peinent à performer. Les résultats expérimentaux montrent que VisionZip dépasse la méthode d’état de l’art précédente d’au moins 5 % de performance dans presque tous les cas. En outre, notre approche améliore de manière significative la vitesse d’inférence du modèle, accélérant le temps de pré-remplissage (prefilling) jusqu’à 8 fois, et permettant au modèle LLaVA-Next 13B d’inférer plus rapidement que le modèle LLaVA-Next 7B tout en obtenant de meilleurs résultats. Enfin, nous analysons les causes de cette redondance et encourageons la communauté à se concentrer sur l’extraction de caractéristiques visuelles de meilleure qualité, plutôt que sur l’augmentation pure de la longueur des tokens. Le code source est disponible à l’adresse suivante : https://github.com/dvlab-research/VisionZip.

Dépôts de code

dvlab-research/visionzip
Officiel
pytorch
Mentionné dans GitHub

Benchmarks

BenchmarkMéthodologieMétriques
visual-question-answering-on-mm-vetVisionZip (Retain 128 Tokens, fine-tuning)
GPT-4 score: 32.9
visual-question-answering-on-mm-vetVisionZip (Retain 64 Tokens, fine-tuning)
GPT-4 score: 30.2
visual-question-answering-on-mm-vetVisionZip (Retain 128 Tokens)
GPT-4 score: 32.6
visual-question-answering-on-mm-vetVisionZip (Retain 192 Tokens, fine-tuning)
GPT-4 score: 32.6
visual-question-answering-on-mm-vetVisionZip (Retain 192 Tokens)
GPT-4 score: 31.7
visual-question-answering-on-mm-vetVisionZip (Retain 64 Tokens)
GPT-4 score: 31.7

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage | Articles de recherche | HyperAI