2달 전
적응형 희소 ViT: 자기 주의 메커니즘을 완전히 활용한 학습 가능한 적응형 토큰 프루닝 연구
Liu, Xiangcheng ; Wu, Tianyi ; Guo, Guodong

초록
비전 트랜스포머(Vision Transformer)는 컴퓨터 비전 분야에서 새로운 패러다임으로 부상하여 뛰어난 성능을 보여주고 있지만, 동시에 높은 계산 비용을 동반하고 있습니다. 이미지 토큰 프루닝은 토큰 수에 대해 복잡도가 이차적이며, 배경 영역만 포함하는 많은 토큰이 최종 예측에 실제로 기여하지 않는다는 사실 때문에 ViT 압축의 주요 접근 방식 중 하나입니다. 기존 연구들은 개별 토큰의 중요성을 평가하기 위해 추가 모듈에 의존하거나, 다양한 입력 인스턴스에 대해 고정된 비율의 프루닝 전략을 구현하였습니다. 본 연구에서는 최소한의 비용으로 적응형 희소 토큰 프루닝 프레임워크를 제안합니다. 구체적으로, 먼저 저렴한 비용으로 주목(attention) 머리 중요도 가중 클래스 주목 점수 메커니즘을 제안합니다. 그런 다음 학습 가능한 매개변수가 임계값으로 삽입되어 중요한 토큰과 중요하지 않은 토큰을 구분합니다. 토큰 주목 점수와 임계값을 비교하여 무용한 토큰을 계층적으로 제거할 수 있으므로 추론 속도를 빠르게 할 수 있습니다. 학습 가능한 임계값은 예산 인식 학습에서 정확성과 복잡도 사이의 균형을 맞추기 위해 최적화되며, 다양한 입력 인스턴스에 대한 해당 프루닝 설정을 수행합니다. 광범위한 실험 결과가 본 방법론의 효과를 입증하였습니다. 본 방법은 DeiT-S의 처리량을 50% 개선하면서 상위 1등급 정확성이 0.2%만 감소하였으며, 이는 이전 방법들보다 정확성과 지연 시간 간의 더 나은 균형을 달성하였습니다.