다중 기준 토큰 융합과 한 단계 앞선 주의 메커니즘을 활용한 효율적인 비전 트랜스포머

비전 트랜스포머(Vision Transformer, ViT)는 컴퓨터 비전의 주요 백본으로 부각되었습니다. 더 효율적인 ViT를 위해 최근 연구에서는 자기 주의(self-attention) 층의 이차 비용을 토큰 제거 또는 토큰 융합을 통해 줄이는 데 초점을 맞추었습니다. 그러나 이러한 연구들은 정보 손실로 인한 속도-정확성 균형 문제에 직면했습니다. 본 논문에서는 토큰 융합이 정보 손실을 최소화하기 위해서는 토큰 간의 다양한 관계를 고려해야 한다고 주장합니다. 이를 바탕으로 우리는 다중 기준 토큰 융합(Multi-criteria Token Fusion, MCTF)을 제안합니다. MCTF는 유사성, 정보량, 융합된 토큰의 크기 등의 다중 기준에 따라 점진적으로 토큰을 융합합니다. 또한, 우리는 한 단계 앞선 주의(one-step-ahead attention)라는 개선된 접근 방식을 사용하여 토큰의 정보량을 포착합니다. MCTF를 장착한 모델을 토큰 축소 일관성을 이용해 학습함으로써 이미지 분류(ImageNet1K)에서 최상의 속도-정확성 균형을 달성하였습니다. 실험 결과는 MCTF가 학습 유무에 상관없이 이전 축소 방법들을 일관되게 능가한다는 것을 증명하였습니다. 특히, DeiT-T와 DeiT-S에 MCTF를 적용하면 FLOPs가 약 44% 감소하면서 각각 +0.5%, +0.3% 성능이 향상되었습니다. 또한, T2T-ViT 및 LV-ViT 등 다양한 비전 트랜스포머에서도 MCTF의 적용 가능성을 보여주며, 성능 저하 없이 최소 31% 이상의 속도 향상을 달성하였습니다. 코드는 https://github.com/mlvlab/MCTF에서 확인할 수 있습니다.