2달 전

Beyond Attentive Tokens: 효율적인 비전 트랜스포머를 위한 토큰 중요성과 다양성의 통합

Long, Sifan ; Zhao, Zhen ; Pi, Jimin ; Wang, Shengsheng ; Wang, Jingdong
Beyond Attentive Tokens: 효율적인 비전 트랜스포머를 위한 토큰 중요성과 다양성의 통합
초록

비전 트랜스포머는 다양한 비전 작업에서 상당한 개선을 이루어냈지만, 토큰 간의 이차적 상호작용으로 인해 계산 효율성이 크게 저하됩니다. 최근에는 효율적인 비전 트랜스포머를 위해 불필요한 토큰을 제거하는 많은 가지치기 방법들이 제안되었습니다. 그러나 기존 연구들은 주로 로컬 주의 토큰을 유지하기 위한 토큰 중요성을 중점적으로 다루었지만, 전역 토큰 다양성은 완전히 무시되었습니다. 본 논문에서는 다양한 전역 의미의 중요성을 강조하고, 토큰 중요성과 다양성을 동시에 고려하여 토큰 가지치기를 수행할 수 있는 효율적인 토큰 분리 및 병합 방법을 제안합니다. 클래스 토큰 주의에 따라, 우리는 주의를 받는 토큰과 그렇지 않은 토큰을 분리합니다. 가장 구별되는 로컬 토큰들을 유지하는 것뿐만 아니라, 유사한 주의를 받지 않는 토큰들을 병합하고 동질적인 주의를 받는 토큰들끼리 매칭하여 최대한의 토큰 다양성을 확보합니다. 이 방법이 단순함에도 불구하고, 모델 복잡성과 분류 정확도 사이에서 유망한 균형을 이루었습니다. DeiT-S 모델에서 우리의 방법은 FLOPs를 35% 감소시키면서 정확도가 단 0.2%만 떨어졌습니다. 특히, 토큰 다양성을 유지함으로써 얻은 이점 덕분에 DeiT-T 모델에서는 FLOPs를 40% 감소시키면서도 정확도가 0.1% 개선되었습니다.

Beyond Attentive Tokens: 효율적인 비전 트랜스포머를 위한 토큰 중요성과 다양성의 통합 | 최신 연구 논문 | HyperAI초신경