Command Palette
Search for a command to run...
Yutong Wang Haiyu Wang Sai Qian Zhang

초록
시각-언어 모델(Vision-Language Models, VLMs)은 이미지 설명 생성 및 시각적 질의응답과 같은 다양한 작업에 핵심적인 역할을 하지만, 대규모 메모리 사용량과 처리 시간으로 인해 높은 계산 비용이 발생하여 확장성과 실시간 적용 가능성이 제한된다. 본 연구에서는 공동 쿼리(Q), 키(K), 값(V) 가중치 행렬에 대해 특이값 분해(Singular-Value Decomposition, SVD)를 적용함으로써 KV 캐시 크기와 계산 부담을 줄이는 방안을 제안한다. 더불어, VLM의 정확도에 미치는 영향을 기반으로 SVD의 순위(rank)를 동적으로 조정하는 효율적인 순위 할당 전략을 도입하여 메모리 사용량과 계산 비용을 크게 감소시켰다. 마지막으로, VLM의 가중치와 활성화 값에 대해 양자화(quantization)를 적용함으로써 이 접근법을 확장하여 매우 효율적인 VLM을 구현하였다. 제안한 방법은 단순 양자화나 SVD에만 의존하는 기존 방법보다 더 높은 정확도(10% 이상 향상)를 달성하면서도 하드웨어 자원 소비를 줄여, 자원이 제한된 장치에서의 실시간 배포에 더 적합한 솔루션을 제공한다.