2달 전

PPT: 효율적인 비전 트랜스포머를 위한 토큰 프루닝 및 풀링

Wu, Xinjian ; Zeng, Fanhu ; Wang, Xiudong ; Chen, Xinghao
PPT: 효율적인 비전 트랜스포머를 위한 토큰 프루닝 및 풀링
초록

비전 트랜스포머(Vision Transformers, ViTs)는 컴퓨터 비전 분야에서 강력한 모델로 부각되며, 다양한 비전 작업에서 우수한 성능을 제공하고 있습니다. 그러나 높은 계산 복잡도는 실제 상황에서의 실용적 응용에 큰 장벽이 되고 있습니다. 모든 토큰이 최종 예측에 동등하게 기여하지 않는다는 사실과 더 적은 수의 토큰이 더 적은 계산 비용을 초래한다는 점에 착안하여, 불필요한 토큰을 줄이는 것이 비전 트랜스포머를 가속화하는 주류 패러다임으로 자리 잡았습니다. 그러나 우리는 토큰 프루닝(token pruning)으로만 주의 집중되지 않은 중복성을 줄이는 것이나, 토큰 머징(token merging)으로만 중복된 중복성을 줄이는 것이 최적이 아니라고 주장합니다. 이를 해결하기 위해 본 논문에서는 두 가지 유형의 중복성을 다른 층에서 적응적으로 처리할 수 있는 새로운 가속화 프레임워크인 토큰 프루닝 & 풀링 트랜스포머(Token Pruning & Pooling Transformers, PPT)를 제안합니다. PPT는 추가적인 학습 가능한 매개변수 없이 ViT에 토큰 프루닝과 토큰 풀링 기술을 직관적으로 통합하여, 모델 복잡도를 효과적으로 줄이면서 예측 정확도를 유지합니다. 예를 들어, PPT는 DeiT-S 모델에서 37% 이상의 FLOPs(Floating Point Operations Per Second)를 감소시키고, ImageNet 데이터셋에서 정확도 하락 없이 처리량을 45% 이상 개선시킵니다. 코드는 https://github.com/xjwu1024/PPT 와 https://github.com/mindspore-lab/models/ 에서 확인할 수 있습니다.

PPT: 효율적인 비전 트랜스포머를 위한 토큰 프루닝 및 풀링 | 최신 연구 논문 | HyperAI초신경