17일 전

시각적 Transformer에 컨볼루션 설계 통합하기

Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, Wei Wu
시각적 Transformer에 컨볼루션 설계 통합하기
초록

자연어 처리(NLP) 작업에서 Transformer의 성공에 영감을 받아, ViT와 DeiT와 같은 연구들이 Transformer를 비전 분야에 적용하려는 시도를 하고 있다. 그러나 순수한 Transformer 아키텍처는 컨볼루션 신경망(CNN)과 비교했을 때 동등한 성능을 달성하기 위해 대량의 학습 데이터나 추가적인 감독 정보를 필요로 하는 경우가 많다. 이러한 한계를 극복하기 위해, 우리는 NLP에서 유도된 Transformer 아키텍처를 직접 비전 영역에 적용할 때 발생할 수 있는 잠재적인 문제점을 분석하였다. 이를 바탕으로, 낮은 수준의 특징을 추출하는 데 강점을 지닌 CNN의 장점과, 장거리 의존성을 효과적으로 모델링하는 Transformer의 장점을 결합한 새로운 \textbf{컨볼루션 강화 이미지 Transformer (CeiT)}을 제안한다. 기존 Transformer에 세 가지 개선 사항을 도입하였다. \textbf{1)} 원본 입력 이미지에서 단순히 토큰화하는 방식이 아닌, 생성된 낮은 수준의 특징에서 패치를 추출하는 \textbf{이미지-토큰 변환(I2T)} 모듈을 설계하였다. \textbf{2)} 각 인코더 블록 내의 피드포워드 네트워크를 공간 차원에서 인접한 토큰 간의 상관관계를 강화하는 \textbf{지역 강화 피드포워드(LeFF)} 레이어로 대체하였다. \textbf{3)} Transformer 상단에 \textbf{계층별 클래스 토큰 어텐션(LCA)}을 도입하여 다수준 표현을 활용하였다. ImageNet 및 7개의 하류 작업에 대한 실험 결과는, 대량의 학습 데이터나 추가적인 CNN 교사 모델 없이도 기존 Transformer 및 최첨단 CNN과 비교하여 CeiT의 효과성과 일반화 능력이 뛰어남을 보여준다. 또한 CeiT 모델은 학습 반복 횟수를 3배 줄여도 더 빠른 수렴을 보이며, 이는 학습 비용을 크게 절감할 수 있음을 시사한다\footnote{코드와 모델은 수락 후 공개될 예정입니다.}.

시각적 Transformer에 컨볼루션 설계 통합하기 | 최신 연구 논문 | HyperAI초신경