SparseMM, Une Stratégie D'optimisation Du Cache KV Utilisant La Parcimonie Visuelle
La stratégie d'optimisation du cache KV en utilisant la rareté des têtes visuelles (Sparsity Emerges from Visual Concept Responses in MLLMs, ou SparseMM) est une stratégie d'optimisation du cache clé-valeur proposée par le Laboratoire de vision intelligente de l'Université Tsinghua et le groupe Tencent Hunyuan X le 5 juin 2025. Elle alloue un budget de calcul asymétrique à chaque tête d'attention du grand modèle de langage en fonction du score visuel. Les résultats de l'article sont les suivants :SparseMM : la parcimonie de la tête émerge des réponses aux concepts visuels dans les MLLM".
Comparé aux méthodes précédentes, SparseMM privilégie et préserve la sémantique visuelle lors du décodage. Des évaluations approfondies sur des benchmarks multimodaux classiques montrent que SparseMM offre un meilleur compromis précision-efficacité. Lors du test d'efficacité, SparseMM obtient une accélération temps réel multipliée par 1,38 et une réduction de la mémoire de 52%, tout en maintenant des performances comparables.