17일 전
시공간-채널 토큰 증류를 통한 비전 MLPs
{Chang Xu, Yunhe Wang, Yehui Tang, Minjing Dong, Xinghao Chen, Yanxi Li}

초록
최근, 모든 계층이 다층 퍼셉트론(Multi-layer Perceptrons, MLPs)으로 구성된 신경망 아키텍처가 컴퓨터 비전 분야에서 큰 연구 관심을 끌고 있다. 그러나 MLP 기반의 비전 모델은 공간-채널 정보의 비효율적인 혼합으로 인해 대규모 데이터셋에서 막대한 사전 훈련이 필요하다는 문제가 있다. 본 연구는 이 문제를 새로운 지식 증류(knowledge distillation) 관점에서 해결한다. 우리는 각 공간 및 채널 차원에 증류 토큰(distillation tokens)을 도입함으로써 두 차원에서의 정보 혼합을 향상시키는 새로운 공간-채널 토큰 증류(Spatial-channel Token Distillation, STD) 방법을 제안한다. 또한, 증류 토큰이 각각 특정 차원에 집중하도록 하여 성능 향상을 극대화하기 위해 상호 정보 정규화(mutual information regularization)를 추가로 도입한다. 여러 MLP 기반 아키텍처에 대해 ImageNet에서 실시한 광범위한 실험 결과, 제안하는 토큰 증류 기법이 정확도를 효율적으로 향상시킴을 입증하였다. 예를 들어, Mixer-S16에 대해 JFT-300M에서의 비용이 큰 사전 훈련 없이도 ImageNet의 top-1 정확도를 73.8%에서 75.7%로 향상시켰다. 더 강력한 아키텍처인 CycleMLP-B1 및 CycleMLP-B2에 적용했을 때도 각각 약 1.1%, 0.5%의 정확도 향상을 달성할 수 있었다.