Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers 공동 토큰 제거 및 압축을 통한 비전 트랜스포머의 더욱 공격적인 압축

비전 트랜스포머(Vision Transformers, ViTs)는 최근 다양한 컴퓨터 비전 작업에서 유망한 결과를 보여주었지만, 높은 계산 비용으로 인해 실제 응용에 제약을 받고 있습니다. 이전의 중복 토큰 제거 방법들은 성능과 계산 비용 사이에서 좋은 균형을 이루었습니다. 그러나 제거 전략으로 인한 오류는 중요한 정보 손실을 초래할 수 있습니다. 우리의 정량적 실험은 제거된 토큰이 성능에 미치는 영향이 명백해야 함을 밝혔습니다. 이 문제를 해결하기 위해, 우리는 더 효율적으로 비전 트랜스포머를 압축하기 위한 새로운 공동 토큰 제거 및 압축 모듈(Token Pruning & Squeezing module, TPS)을 제안합니다.첫째, TPS는 제거를 통해 보존된 부분 집합과 제거된 부분 집합을 얻습니다. 둘째, TPS는 단방향 가장 가까운 이웃 매칭과 유사성 기반 융합 단계를 통해 제거된 토큰의 정보를 일부 보존된 토큰으로 압축합니다. 최신 방법들과 비교하여, 우리의 접근 방식은 모든 토큰 제거 강도에서 그들을 능가합니다. 특히 DeiT-tiny&small의 계산 예산을 35%로 축소할 때, ImageNet 분류 작업에서 기준 모델들보다 1%-6%의 정확도 개선을 보입니다. 제안된 방법은 DeiT-small의 처리량을 DeiT-tiny보다 빠르게 증가시킬 수 있으며, 정확도는 DeiT-tiny보다 4.78% 높아집니다. 다양한 트랜스포머에 대한 실험은 우리 방법의 효과성을 입증하며, 분석 실험은 토큰 제거 정책의 오류에 대해 우리의 더 높은 견고성을 증명합니다.코드는 https://github.com/megvii-research/TPS-CVPR2023 에서 확인할 수 있습니다.