초록

최근 비전 트랜스포머(Vision Transformers, ViTs)의 발전은 더 큰 모델이 일반적으로 우수한 성능을 달성함을 보여주었다. 그러나 이러한 모델을 훈련하는 과정은 여전히 계산적으로 부담이 크고 비용이 많이 든다. 이 문제를 해결하기 위해, 우리는 ViT 모델을 효율적으로 확장할 수 있는 ScaleNet을 제안한다. 기존의 완전한 초기 훈련 방식과 달리, ScaleNet은 기존의 사전 훈련된 모델을 기반으로 하여 파라미터 증가량이 거의 없이 빠르게 모델을 확장할 수 있도록 한다. 이는 ViT 모델을 확장하는 데 있어 비용 효율적인 솔루션을 제공한다. 구체적으로, ScaleNet은 사전 훈련된 ViT에 추가 레이어를 삽입함으로써 모델 확장을 달성하며, 레이어 간 가중치 공유를 통해 파라미터 효율성을 유지한다. 각 추가 레이어는 사전 훈련된 모델의 대응 레이어와 파라미터 텐서를 공유한다. 공유된 가중치로 인한 성능 저하를 완화하기 위해, ScaleNet은 각 레이어에 대해 소규모의 조정 파라미터를 도입한다. 이 조정 파라미터는 병렬 어댑터 모듈을 통해 구현되며, 공유된 파라미터 텐서의 각 인스턴스가 서로 구별되고 특정 기능에 최적화되도록 보장한다. ImageNet-1K 데이터셋에서의 실험 결과에 따르면, ScaleNet은 ViT 모델의 효율적인 확장을 가능하게 한다. 깊이를 2배로 확장한 DeiT-Base 모델을 기반으로 할 때, ScaleNet은 초기 훈련 대비 7.42%의 정확도 향상을 달성하면서도 훈련 에포크 수의 약 1/3만을 요구함으로써 ViT 확장의 효율성을 입증한다. 이미지 분류를 넘어서, 본 연구 방법은 객체 탐지와 같은 하류 비전 작업에서도 큰 응용 가능성을 보이며, 이는 실험을 통해 확인되었다.

소스 PDF