시각적 Transformer에 컨볼루션 설계 통합하기

자연어 처리(NLP) 작업에서 Transformer의 성공에 영감을 받아, ViT와 DeiT와 같은 연구들이 Transformer를 비전 분야에 적용하려는 시도를 하고 있다. 그러나 순수한 Transformer 아키텍처는 컨볼루션 신경망(CNN)과 비교했을 때 동등한 성능을 달성하기 위해 대량의 학습 데이터나 추가적인 감독 정보를 필요로 하는 경우가 많다. 이러한 한계를 극복하기 위해, 우리는 NLP에서 유도된 Transformer 아키텍처를 직접 비전 영역에 적용할 때 발생할 수 있는 잠재적인 문제점을 분석하였다. 이를 바탕으로, 낮은 수준의 특징을 추출하는 데 강점을 지닌 CNN의 장점과, 장거리 의존성을 효과적으로 모델링하는 Transformer의 장점을 결합한 새로운 \textbf{컨볼루션 강화 이미지 Transformer (CeiT)}을 제안한다. 기존 Transformer에 세 가지 개선 사항을 도입하였다. \textbf{1)} 원본 입력 이미지에서 단순히 토큰화하는 방식이 아닌, 생성된 낮은 수준의 특징에서 패치를 추출하는 \textbf{이미지-토큰 변환(I2T)} 모듈을 설계하였다. \textbf{2)} 각 인코더 블록 내의 피드포워드 네트워크를 공간 차원에서 인접한 토큰 간의 상관관계를 강화하는 \textbf{지역 강화 피드포워드(LeFF)} 레이어로 대체하였다. \textbf{3)} Transformer 상단에 \textbf{계층별 클래스 토큰 어텐션(LCA)}을 도입하여 다수준 표현을 활용하였다. ImageNet 및 7개의 하류 작업에 대한 실험 결과는, 대량의 학습 데이터나 추가적인 CNN 교사 모델 없이도 기존 Transformer 및 최첨단 CNN과 비교하여 CeiT의 효과성과 일반화 능력이 뛰어남을 보여준다. 또한 CeiT 모델은 학습 반복 횟수를 3배 줄여도 더 빠른 수렴을 보이며, 이는 학습 비용을 크게 절감할 수 있음을 시사한다\footnote{코드와 모델은 수락 후 공개될 예정입니다.}.