17일 전

비전을 위한 컨볼루션 Xformers

Pranav Jeevan, Amit sethi
비전을 위한 컨볼루션 Xformers
초록

비전 트랜스포머(Vision Transformers, ViTs)는 특정 벤치마크에서 최고 수준의 정확도를 보이지만, 이미지 처리 분야에서 실용적으로는 제한적으로 활용되고 있다. 그 이유는 자기 주의(self-attention) 메커니즘의 이차 복잡도로 인해 컨볼루션 신경망(CNNs)에 비해 더 큰 학습 데이터셋과 더 많은 계산 자원이 필요하기 때문이다. 이를 극복하기 위해 우리는 선형 주의-컨볼루션 하이브리드 아키텍처인 '비전을 위한 컨볼루션 트랜스포머(Convolutional X-formers for Vision, CXV)'를 제안한다. CXV는 Performer, Nyströmformer, Linear Transformer와 같은 선형 주의 메커니즘을 사용하여 기존의 이차 주의 메커니즘을 대체함으로써 GPU 사용량을 감소시킨다. 또한 이미지 데이터에 대한 인덕티브 사전 지식(inductive prior)을 컨볼루션 하위 계층을 통해 제공함으로써, ViTs에서 사용하는 클래스 토큰(class token)과 위치 임베딩(positional embeddings)의 필요성을 제거한다. 더불어, 학습의 다양한 단계에서 서로 다른 최적화 알고리즘을 사용하는 새로운 학습 방법을 제안하며, 다양한 아키텍처에서 상위-1 이미지 분류 정확도가 향상됨을 보여준다. CXV는 데이터와 GPU 자원(코어, RAM, 전력)이 제한된 환경에서 기존의 다른 아키텍처, 토큰 믹서(ConvMixer, FNet, MLP Mixer), 트랜스포머 모델(ViT, CCT, CvT, 하이브리드 Xformers), 그리고 ResNets보다 더 뛰어난 이미지 분류 성능을 보인다.

비전을 위한 컨볼루션 Xformers | 최신 연구 논문 | HyperAI초신경