모든 토큰이 중요하다: 더 나은 비전 트랜스포머를 위한 토큰 라벨링

본 논문에서는 토큰 라벨링 -- 고성능 비전 트랜스포머(Vision Transformers, ViTs)를 훈련시키는 새로운 훈련 목표를 제시합니다. 기존의 ViTs 훈련 목표가 추가적인 학습 가능한 클래스 토큰(class token)에 대한 분류 손실(classification loss)을 계산하는 것과 달리, 제안된 방법은 모든 이미지 패치 토큰(image patch tokens)을 활용하여 밀도 있는 방식으로 훈련 손실을 계산합니다. 구체적으로, 토큰 라벨링은 이미지 분류 문제를 여러 개의 토큰 단위 인식 문제로 재구성하고, 머신 어노테이터(machine annotator)가 생성한 위치별로 특정한 감독 정보(location-specific supervision)를 각 패치 토큰(patch token)에 할당합니다. 실험 결과, 토큰 라벨링은 다양한 ViT 모델에서 명확하고 일관되게 성능을 개선함을 보여줍니다. 예를 들어, 26M 개의 학습 가능한 매개변수(learnable parameters)를 가진 비전 트랜스포머는 토큰 라벨링을 통해 ImageNet에서 84.4%의 Top-1 정확도를 달성할 수 있습니다. 모델 크기를 약간 늘려 150M로 조정하면 이 결과는 86.4%까지 증가하며, 이는 이전 모델들(250M+) 중에서 86%의 정확도를 달성한 최소 크기의 모델입니다. 또한 우리는 토큰 라벨링이 밀도 있는 예측(dense prediction)이 필요한 하류 작업(downstream tasks), 예를 들어 의미 분할(semantic segmentation) 등에서 사전 학습된 모델(pre-trained models)의 일반화 능력을 명확히 개선할 수 있음을 보여줍니다. 본 연구의 코드와 모든 훈련 세부사항은 https://github.com/zihangJiang/TokenLabeling 에 공개될 예정입니다.