2달 전

DynamicViT: 효율적인 비전 트랜스포머에 대한 동적 토큰 희소화

Rao, Yongming ; Zhao, Wenliang ; Liu, Benlin ; Lu, Jiwen ; Zhou, Jie ; Hsieh, Cho-Jui
DynamicViT: 효율적인 비전 트랜스포머에 대한 동적 토큰 희소화
초록

비전 트랜스포머에서 주의력은 희소합니다. 우리는 비전 트랜스포머에서 최종 예측이 가장 정보가 많은 토큰들의 부분 집합에만 기반한다는 것을 관찰하였습니다. 이는 정확한 이미지 인식을 위해 충분하다고 할 수 있습니다. 이러한 관찰에 기반하여, 입력에 따라 점진적이고 동적으로 중복된 토큰을 제거하기 위한 동적 토큰 희소화 프레임워크를 제안합니다. 구체적으로, 현재 특성들을 고려하여 각 토큰의 중요도 점수를 추정하는 경량 예측 모듈을 설계하였습니다. 이 모듈은 다양한 계층에 추가되어 계층적으로 중복된 토큰을 제거합니다. 예측 모듈을 end-to-end 방식으로 최적화하기 위해, 자동 미분이 가능한 주의력 마스킹 전략을 제안하여 다른 토큰들과의 상호작용을 차단함으로써 특정 토큰을 제거할 수 있도록 하였습니다. 자기 주의력(self-attention)의 특성 덕분에, 비정형(non-structured)인 희소한 토큰들도 여전히 하드웨어 친화적이어서 우리의 프레임워크는 실제 속도 개선을 쉽게 달성할 수 있습니다. 입력 토큰의 66%를 계층적으로 제거함으로써, 우리의 방법은 31%~37%의 FLOPs(Floating Point Operations per Second)를 크게 줄이고 다양한 비전 트랜스포머에서 정확도가 0.5% 이내로 감소하면서 처리량(throughput)을 40% 이상 개선했습니다. 동적 토큰 희소화 프레임워크를 탑재한 DynamicViT 모델들은 ImageNet에서 최신 CNNs와 비전 트랜스포머들보다 매우 경쟁력 있는 복잡도/정확도 균형을 달성할 수 있습니다. 코드는 https://github.com/raoyongming/DynamicViT 에서 확인할 수 있습니다.

DynamicViT: 효율적인 비전 트랜스포머에 대한 동적 토큰 희소화 | 최신 연구 논문 | HyperAI초신경