
더 깊은 Vision Transformers(ViTs)는 훈련이 더 어려운 문제가 있다. 우리는 사전 훈련 시 마스킹된 이미지 모델링(MIM)을 사용할 때 ViT의 깊은 층에서 발생하는 성능 저하 문제를 지적한다. 더 깊은 ViT의 훈련을 용이하게 하기 위해, 마스킹된 이미지의 잔차(residual)를 복원하는 것을 목표로 하는 자기지도 학습 프레임워크인 마스킹된 이미지 잔차 학습(Masked Image Residual Learning, MIRL)을 제안한다. 이 방법은 성능 저하 문제를 크게 완화하여 ViT의 깊이 방향으로의 확장이 성능 향상의 유망한 방향이 될 수 있도록 한다. 우리는 ViT의 깊은 층에 대한 사전 훈련 목표를 마스킹된 이미지의 잔차를 복원하는 것으로 재정의한다. 광범위한 실험적 증거를 통해 MIRL을 사용하면 더 깊은 ViT가 효과적으로 최적화될 수 있으며, 깊이를 증가시킴으로써 정확도 향상을 쉽게 달성할 수 있음을 보여준다. ViT-Base 및 ViT-Large와 동일한 계산 복잡도를 유지하면서, 깊이가 각각 4.5배와 2배 더 깊은 ViT 모델인 ViT-S-54와 ViT-B-48을 구현하였다. ViT-S-54는 ViT-Large보다 3배 적은 계산량을 사용하면서도 ViT-Large와 동등한 성능을 달성하였다. ViT-B-48은 ImageNet에서 86.2%의 top-1 정확도를 기록하였다. 한편, MIRL로 사전 훈련된 더 깊은 ViT는 객체 탐지 및 세그멘테이션과 같은 하류 작업에서 뛰어난 일반화 능력을 보였다. 다른 접근법과 비교해도 MIRL은 사전 훈련 효율성이 높으며, 더 짧은 사전 훈련 시간에도 경쟁력 있는 성능을 제공한다.