
초록
비전 트랜스포머는 최근 몇 년 동안 다양한 컴퓨터 비전 작업에서 뛰어난 성공을 거두었습니다. 그러나 여전히 높은 계산 비용이 실용적인 배포를 위한 주요 장벽으로 남아 있습니다. 특히, 트랜스포머 모델의 복잡도는 입력 토큰 수에 대해 이차적이므로, 처리해야 하는 입력 토큰 수를 줄이는 기술들이 제안되었습니다. 본 논문에서는 토큰 머징과 토큰 프루닝의 강점을 모두 활용하는 새로운 접근 방식인 학습된 임계값 토큰 머징 및 프루닝(LTMP)을 소개합니다. LTMP는 동적으로 어떤 토큰을 머징할 것인지, 어떤 토큰을 프루닝할 것인지 결정하는 학습된 임계값 마스킹 모듈을 사용합니다. 우리는 이미지넷 분류 작업에서 비전 트랜스포머에 대한 광범위한 실험을 통해 우리의 접근 방식을 입증하였습니다. 실험 결과, LTMP는 단 한 번의 미세 조정(fine-tuning) 에폭만으로도 이전 방법들보다 10배 더 빠르게 최고 수준의 정확성을 달성하며, 감소율에 걸쳐 최상의 정확성을 보여주었습니다. 코드는 https://github.com/Mxbonn/ltmp 에서 제공됩니다.