DeiT-LT 증류가 장미 꼬리 데이터셋에서 비전 트랜스포머 훈련에 대한 반격을 가하다

비전 트랜스포머(Vision Transformer, ViT)는 다양한 컴퓨터 비전 작업을 위한 주요 아키텍처로 부각되었습니다. ViT에서는 입력 이미지를 패치 토큰으로 나누고 이를 자기 주의(self-attention) 블록의 쌓인 구조를 통해 처리합니다. 그러나 컨벌루션 신경망(Convolutional Neural Networks, CNN)과 달리, ViT의 단순한 아키텍처는 유용한 귀납적 편향(inductive bias, 예: 지역성 등)이 없습니다. 이 때문에 ViT는 사전 학습에 대량의 데이터가 필요합니다. 다양한 데이터 효율적인 접근법(DeiT)이 제안되어 균형 잡힌 데이터셋에서 ViT를 효과적으로 학습할 수 있도록 하였습니다. 그러나 장미 꼬리 분포(long-tailed imbalances)를 가진 데이터셋에 대한 ViT의 활용에 관한 연구는 제한적입니다.본 연구에서는 장미 꼬리 분포를 가진 데이터셋에서 처음부터 ViT를 학습하는 문제를 해결하기 위해 DeiT-LT를 소개합니다. DeiT-LT에서는 분류(CNN로부터의 증류(distillation))를 위해 DIST 토큰을 도입하여 분포 외(out-of-distribution) 이미지를 사용하고 증류 손실(distillation loss)을 재가중(re-weighting)하여 꼬리 클래스(tail classes)에 대한 집중을 강화하는 효율적이고 효과적인 방법을 제시합니다. 이로 인해 초기 ViT 블록에서 지역적인 CNN 유사 특징(local CNN-like features)을 학습하게 되어 꼬리 클래스의 일반화 성능이 개선됩니다.또한 과적합(overfitting)을 완화하기 위해 평평한(flat) CNN 교사를 통해 증류하는 방안을 제안합니다. 이는 모든 ViT 블록에서 DIST 토큰에 대해 저 순위(low-rank) 일반화 가능한 특징을 학습하도록 합니다. 제안된 DeiT-LT 방식으로 증류 DIST 토큰은 꼬리 클래스에 전문성을 가지게 되고, 분류기 CLS 토큰은 머릿부분(head classes) 클래스에 전문성을 가지게 됩니다. 이러한 전문가들은 동일한 ViT 아키텍처 내에서 다수와 소수 클래스 모두에 해당하는 특징을 효과적으로 학습할 수 있도록 돕습니다.우리는 CIFAR-10 LT부터 대규모 iNaturalist-2018까지 다양한 규모의 데이터셋에서 처음부터 ViT를 학습시키는 DeiT-LT의 효과성을 보여줍니다.