SparseMM, Eine Strategie Zur KV-Cache-Optimierung Unter Verwendung Visueller Head-Sparsity
Die Strategie zur Optimierung des KV-Cache durch Ausnutzung der Sparsity visueller Köpfe (Sparsity Emerges from Visual Concept Responses in MLLMs, kurz SparseMM) ist eine Schlüsselwert-Cache-Optimierungsstrategie, die vom Intelligent Vision Laboratory der Tsinghua University und der Tencent Hunyuan X Group am 5. Juni 2025 vorgeschlagen wurde. Sie weist jedem Aufmerksamkeitskopf im großen Sprachmodell entsprechend der visuellen Punktzahl ein asymmetrisches Rechenbudget zu. Die Ergebnisse der Studie lauten:SparseMM: Kopf-Spärlichkeit entsteht durch visuelle Konzeptreaktionen in MLLMs".
Im Vergleich zu früheren Methoden priorisiert und bewahrt SparseMM die visuelle Semantik während der Dekodierung. Umfangreiche Auswertungen gängiger multimodaler Benchmarks zeigen, dass SparseMM ein besseres Verhältnis zwischen Genauigkeit und Effizienz erreicht. Im Effizienztest erreicht SparseMM eine 1,38-fache Echtzeitbeschleunigung und eine Speicherreduzierung von 52% bei vergleichbarer Leistung.