il y a 3 mois

VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage

Voir les détails de l'article Voir le code

Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage

Résumé

Les progrès récents des modèles vision-langage ont amélioré les performances en augmentant la longueur des tokens visuels, les rendant bien plus longs que les tokens textuels et entraînant une hausse significative des coûts computationnels. Toutefois, nous constatons que les tokens visuels générés par des encodeurs visuels populaires, tels que CLIP et SigLIP, présentent une redondance importante. Pour y remédier, nous proposons VisionZip, une méthode simple mais efficace qui sélectionne un ensemble de tokens informatifs à introduire dans le modèle langagier, réduisant ainsi la redondance des tokens visuels et améliorant l'efficacité sans compromettre les performances du modèle. La méthode VisionZip peut être largement appliquée aux tâches de compréhension d’images et de vidéos, et s’adapte particulièrement bien aux dialogues à plusieurs tours dans des scénarios du monde réel, où les approches antérieures peinent à performer. Les résultats expérimentaux montrent que VisionZip dépasse la méthode d’état de l’art précédente d’au moins 5 % de performance dans presque tous les cas. En outre, notre approche améliore de manière significative la vitesse d’inférence du modèle, accélérant le temps de pré-remplissage (prefilling) jusqu’à 8 fois, et permettant au modèle LLaVA-Next 13B d’inférer plus rapidement que le modèle LLaVA-Next 7B tout en obtenant de meilleurs résultats. Enfin, nous analysons les causes de cette redondance et encourageons la communauté à se concentrer sur l’extraction de caractéristiques visuelles de meilleure qualité, plutôt que sur l’augmentation pure de la longueur des tokens. Le code source est disponible à l’adresse suivante : https://github.com/dvlab-research/VisionZip.

Dépôts de code

dvlab-research/visionzip

Officiel

pytorch

Mentionné dans GitHub

Benchmarks

Benchmark	Méthodologie	Métriques
visual-question-answering-on-mm-vet	VisionZip (Retain 128 Tokens, fine-tuning)	GPT-4 score: 32.9
visual-question-answering-on-mm-vet	VisionZip (Retain 64 Tokens, fine-tuning)	GPT-4 score: 30.2
visual-question-answering-on-mm-vet	VisionZip (Retain 128 Tokens)	GPT-4 score: 32.6
visual-question-answering-on-mm-vet	VisionZip (Retain 192 Tokens, fine-tuning)	GPT-4 score: 32.6
visual-question-answering-on-mm-vet	VisionZip (Retain 192 Tokens)	GPT-4 score: 31.7
visual-question-answering-on-mm-vet	VisionZip (Retain 64 Tokens)	GPT-4 score: 31.7

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette