2달 전
토큰 병합: 더 빠른 ViT
Bolya, Daniel ; Fu, Cheng-Yang ; Dai, Xiaoliang ; Zhang, Peizhao ; Feichtenhofer, Christoph ; Hoffman, Judy

초록
우리는 토큰 병합(Token Merging, ToMe)이라는 기법을 소개합니다. 이 방법은 기존의 ViT 모델의 처리량을 훈련 없이 증가시키는 간단한 방법입니다. ToMe는 일반적이고 가벼운 매칭 알고리즘을 사용하여 트랜스포머에서 유사한 토큰들을 점진적으로 결합하며, 이 알고리즘은 프루닝만큼 빠르면서도 더 정확합니다. 사전에 준비된 상태에서, ToMe는 이미지에서 최신 ViT-L @ 512 및 ViT-H @ 518 모델의 처리량을 2배로 증가시키고 비디오에서는 ViT-L 모델의 처리량을 2.2배로 증가시킬 수 있으며, 각각의 경우에 불과 0.2-0.3%의 정확도 하락만을 초래합니다. ToMe는 훈련 과정에서도 쉽게 적용될 수 있어, 비디오에서 MAE 미세조정 시 실제 훈련 속도를 최대 2배까지 개선할 수 있습니다. ToMe를 사용한 훈련은 정확도 하락을 더욱 최소화하여 오디오에서 ViT-B 모델의 처리량을 2배로 증가시키면서 단지 0.4%의 mAP 하락만을 초래합니다. 질적인 면에서 보면, ToMe는 비디오의 여러 프레임에 걸쳐 객체 부분들을 하나의 토큰으로 결합하는 것을 발견할 수 있습니다. 전반적으로, ToMe의 정확성과 속도는 이미지, 비디오, 그리고 오디오 분야에서 최신 기술과 경쟁력이 있습니다.