17일 전

시각 Transformer의 성능 향상을 위한 고주파 성분 재고찰

Jiawang Bai, Li Yuan, Shu-Tao Xia, Shuicheng Yan, Zhifeng Li, Wei Liu
시각 Transformer의 성능 향상을 위한 고주파 성분 재고찰
초록

변환기(Transformer) 모델은 다양한 비전 작업 처리에 있어 희망적인 효과를 보여주고 있다. 그러나 컨볼루션 신경망(Convolutional Neural Network, CNN) 모델을 학습하는 것과 비교했을 때, 비전 변환기(Vision Transformer, ViT) 모델을 학습하는 것은 더 어렵고, 대규모 학습 데이터셋에 크게 의존한다. 이러한 관측 결과를 설명하기 위해 우리는 다음과 같은 가설을 제기한다: ViT 모델은 CNN 모델에 비해 이미지의 고주파 성분을 더 낮은 효율로 포착한다. 이를 주파수 분석을 통해 검증하였다. 이 발견을 바탕으로, 우리는 기존의 ViT 모델 개선 기법들이 고주파 성분 활용 측면에서 어떻게 작용하는지 새로운 주파수 관점에서 처음으로 분석하였으며, 일부 기법(예: RandAugment)의 성공이 고주파 성분을 더 효과적으로 활용하기 때문임을 발견하였다. 이후 ViT 모델이 고주파 성분을 충분히 포착하지 못하는 점을 보완하기 위해, 적대적 훈련을 통해 이미지의 고주파 성분을 직접 증강하는 HAT(High-frequency Augmentation via Adversarial Training)를 제안한다. 본 연구에서는 HAT가 다양한 ViT 모델의 성능을 일관되게 향상시킬 수 있음을 보이며, 예를 들어 ViT-B 모델에서 +1.2%, Swin-B 모델에서 +0.5%의 성능 향상을 달성하였고, 특히 ImageNet-1K 데이터만을 사용하는 고급 모델 VOLO-D5의 정확도를 87.3%로 향상시켰다. 또한 HAT의 우수성은 분포 외 데이터(out-of-distribution data)에서도 유지되며, 하류 작업으로의 전이 가능성도 확인되었다. 코드는 다음 링크에서 공개되어 있다: https://github.com/jiawangbai/HAT.

시각 Transformer의 성능 향상을 위한 고주파 성분 재고찰 | 최신 연구 논문 | HyperAI초신경