2달 전

모든 패치가 필요한 것은 아니다: 토큰 재구성을 통한 비전 트랜스포머 가속화

Liang, Youwei ; Ge, Chongjian ; Tong, Zhan ; Song, Yibing ; Wang, Jue ; Xie, Pengtao
모든 패치가 필요한 것은 아니다: 토큰 재구성을 통한 비전 트랜스포머 가속화
초록

비전 트랜스포머(Vision Transformers, ViTs)는 이미지 패치들을 토큰으로 취급하여 이들 사이에 다중 헤드 자기 주의(Multi-Head Self-Attention, MHSA)를 구성합니다. 이러한 이미지 토큰을 완전히 활용하면 불필요한 계산이 발생할 수 있습니다. 예를 들어, 의미론적으로 무의미하거나 방해가 되는 배경을 포함하는 토큰들은 ViT의 예측에 긍정적인 기여를 하지 않습니다. 본 연구에서는 ViT 모델의 전방향 프로세스 중에 이미지 토큰을 재구성하는 방법을 제안합니다. 이 방법은 학습 과정에서 ViT에 통합됩니다. 각 추론 과정에서 우리는 클래스 토큰 주의(Class Token Attention)에 의해 안내되는 MHSA와 FFN(Feed-Forward Network) 모듈 사이에서 주의를 기울이는 이미지 토큰들을 식별합니다. 그런 다음, 주의를 기울이는 이미지 토큰들을 유지하고 주의를 기울이지 않는 토큰들을 융합하여 후속 MHSA 및 FFN 계산을 가속화합니다.이러한 목적을 위해, 우리의 방법인 EViT는 두 가지 관점에서 ViTs를 개선합니다. 첫째, 동일한 입력 이미지 토큰 수량 하에서 우리의 방법은 효율적인 추론을 위해 MHSA와 FFN 계산을 줄입니다. 예를 들어, DeiT-S의 추론 속도는 50% 증가하였으며 ImageNet 분류에서 인식 정확도는 단 0.3%만 감소하였습니다. 둘째, 동일한 계산 비용을 유지하면서 우리의 방법은 ViTs가 더 많은 이미지 토큰을 입력으로 받아 인식 정확도를 개선할 수 있도록 합니다. 여기서 이미지 토큰들은 고해상도 이미지에서 얻어집니다. 예를 들어, DeiT-S의 인식 정확도는 동일한 계산 비용 하에서 1% 개선되었습니다. 한편, 우리의 방법은 ViTs에 추가 매개변수를 도입하지 않습니다.표준 벤치마크에서 수행된 실험 결과는 우리 방법의 효과성을 입증하였습니다. 코드는 https://github.com/youweiliang/evit 에서 확인할 수 있습니다.

모든 패치가 필요한 것은 아니다: 토큰 재구성을 통한 비전 트랜스포머 가속화 | 최신 연구 논문 | HyperAI초신경