HyperAI초신경

시각적 헤드 희소성을 활용한 KV-Cache 최적화 전략인 SparseMM

시각 헤드의 희소성을 활용하여 KV-Cache를 최적화하는 전략(MLLM에서 시각적 개념 반응으로 희소성 발생, SparseMM이라고 함)은 칭화대학교 지능형 비전 연구소와 텐센트 훈위안 X 그룹이 2025년 6월 5일 제안한 키-값 캐시 최적화 전략입니다. 이 전략은 시각 점수에 따라 대규모 언어 모델의 각 어텐션 헤드에 비대칭 컴퓨팅 예산을 할당합니다. 관련 논문 결과는 다음과 같습니다.SparseMM: MLLM의 시각적 개념 반응에서 나타나는 헤드 희소성".

이전 방식과 비교했을 때, SparseMM은 디코딩 과정에서 시각적 의미 체계의 우선순위를 정하고 보존합니다. 주요 멀티모달 벤치마크에 대한 광범위한 평가 결과, SparseMM은 정확도와 효율성 간의 균형이 더 나은 것으로 나타났습니다. 효율성 테스트에서 SparseMM은 유사한 성능을 유지하면서 실시간 속도 1.38배 향상과 52% 메모리 절감 효과를 달성했습니다.