11일 전

시간을 절약하는 한 땀, 아홉 땀을 절약한다: 소규모 VLM은 대규모 VLM의 가속화를 위한 정밀한 안내 역할을 한다

Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You
시간을 절약하는 한 땀, 아홉 땀을 절약한다: 소규모 VLM은 대규모 VLM의 가속화를 위한 정밀한 안내 역할을 한다
초록

시각-언어 모델(Vision-Language Models, VLMs)은 다양한 다중 모달 작업에서 놀라운 성과를 보여왔지만, 수많은 시각적 토큰을 처리해야 하는 점으로 인해 대규모 VLM은 효율성 측면에서 큰 도전에 직면해 있다. 대규모 VLM의 추론 속도를 향상시키기 위한 유망한 접근법은 특정 레이어의 어텐션 맵과 같은 부분적인 정보를 활용하여 토큰의 중요도를 평가하고, 덜 중요한 토큰을 제거하는 것이다. 그러나 본 연구는 세 가지 핵심 통찰을 제시한다: (i) 부분적인 어텐션 정보는 핵심 시각적 토큰을 정확히 식별하는 데 부족하며, 특히 토큰 보존 비율이 낮을 때 성능이 최적화되지 않는다; (ii) 전역 어텐션 정보, 즉 모든 레이어에서 집계된 어텐션 맵은 극단적인 제거 상황에서도 핵심 토큰을 효과적으로 보존하고, 비교적 높은 성능을 유지한다. 그러나 모든 레이어의 어텐션 맵을 수집하기 위해서는 전체 추론 프로세스를 수행해야 하며, 이는 계산 부담을 증가시켜 기존 방법에서는 실용적이지 않다; (iii) 소규모 VLM에서 집계된 전역 어텐션 맵은 대규모 VLM의 그것과 매우 유사한 특성을 보이며, 효율적인 대안이 될 수 있다. 이러한 발견을 바탕으로, 우리는 \textbf{학습 없이} 작동하는 \underline{\textbf{S}}mall VLM \underline{\textbf{G}}uidance for accelerating \underline{\textbf{L}}arge VLMs (\textbf{SGL})라는 새로운 방법을 제안한다. 구체적으로, 소규모 VLM의 어텐션 맵을 집계하여 대규모 VLM의 시각적 토큰 제거를 안내한다. 더불어, 소규모 VLM의 예측을 최대한 활용할 수 있도록 조기 종료 메커니즘을 도입하여, 필요할 때만 대규모 VLM을 동적으로 호출함으로써 정확도와 계산량 사이에서 우수한 균형을 달성한다. 11개의 다양한 벤치마크에서 실시한 광범위한 평가를 통해 SGL의 효과성과 일반화 능력이 입증되었으며, 시각적 토큰의 최대 91%까지 제거하면서도 경쟁력 있는 성능을 유지함을 확인하였다.

시간을 절약하는 한 땀, 아홉 땀을 절약한다: 소규모 VLM은 대규모 VLM의 가속화를 위한 정밀한 안내 역할을 한다 | 최신 연구 논문 | HyperAI초신경