18일 전

이미지 하나는 16x16 단어만큼 가치 있다: 대규모 이미지 인식을 위한 Transformer

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
이미지 하나는 16x16 단어만큼 가치 있다: 대규모 이미지 인식을 위한 Transformer
초록

변환기(Transformer) 아키텍처는 자연어 처리 작업의 표준으로 자리 잡았지만, 컴퓨터 비전 분야에의 응용은 여전히 제한적이다. 비전 분야에서 주목은 보통 합성곱 신경망(CNN)과 함께 사용되거나, CNN의 일부 구성 요소를 대체하면서도 전체 구조는 유지하는 방식으로 이루어진다. 본 연구에서는 이러한 CNN에 대한 의존성이 반드시 필요하지 않음을 보여주며, 이미지 패치 시퀀스에 직접 적용되는 순수한 Transformer가 이미지 분류 작업에서 매우 우수한 성능을 발휘할 수 있음을 입증한다. 대규모 데이터에서 사전 학습한 후, 여러 중간 규모 또는 소규모 이미지 인식 벤치마크(예: ImageNet, CIFAR-100, VTAB 등)로 전이 학습할 경우, 비전 변환기(Vision Transformer, ViT)는 최첨단 합성곱 신경망과 비교해 우수한 성능을 기록하면서도 훨씬 적은 계산 자원으로 학습이 가능하다.

이미지 하나는 16x16 단어만큼 가치 있다: 대규모 이미지 인식을 위한 Transformer | 최신 연구 논문 | HyperAI초신경