Command Palette
Search for a command to run...
QSVD : Approximation de faible rang efficace pour la compression unifiée des poids Query-Key-Value dans les modèles vision-langage à précision réduite
Yutong Wang Haiyu Wang Sai Qian Zhang

Résumé
Les modèles vision-langage (VLM) jouent un rôle fondamental dans des tâches telles que la génération de légendes d’images et la réponse à des questions visuelles, mais leur coût computationnel élevé — causé par des empreintes mémoire importantes et des temps de traitement prolongés — limite leur évolutivité et leur applicabilité en temps réel. Dans ce travail, nous proposons d’exploiter la décomposition en valeurs singulières (SVD) appliquée aux matrices de poids jointes des requêtes (Q), des clés (K) et des valeurs (V), afin de réduire la taille du cache KV et le surcroît computationnel. Nous introduisons par ailleurs une stratégie efficace d’attribution de rang qui ajuste dynamiquement le rang de la SVD en fonction de son impact sur la précision du VLM, permettant ainsi une réduction significative à la fois de la consommation mémoire et du coût computationnel. Enfin, nous étendons cette approche en appliquant la quantification aux poids et aux activations du VLM, aboutissant à un modèle vision-langage particulièrement efficace. Notre méthode surpasser les approches antérieures fondées uniquement sur la quantification ou la SVD, en offrant une amélioration de précision dépassant 10 % tout en nécessitant moins de ressources matérielles, ce qui la rend particulièrement adaptée au déploiement en temps réel sur des dispositifs à ressources limitées.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.