
비전 트랜스포머는 도전적인 컴퓨터 비전 작업에서 희망적인 성능을 보여주고 있다. 그러나 비전 트랜스포머를 직접 훈련시키는 것은 불안정하고 최적에 못 미치는 결과를 초래할 수 있다. 최근의 연구들은 트랜스포머 구조를 수정함으로써 비전 트랜스포머의 성능을 향상시키는 방안을 제안하고 있다. 예를 들어, 컨볼루션 계층을 통합하는 방식이 있다. 반면, 우리는 네트워크 구조를 변경하지 않고도 비전 트랜스포머의 훈련을 안정화하는 독립적인 접근 방식을 탐구한다. 우리는 훈련의 불안정성이 추출된 패치 표현 간의 높은 유사성에 기인한다는 점을 관찰했다. 구체적으로, 깊은 비전 트랜스포머에서는 자기주의(self-attention) 블록이 서로 다른 패치들을 유사한 잠재 표현으로 매핑하는 경향이 있어 정보 손실과 성능 저하를 초래한다. 이 문제를 완화하기 위해 본 연구에서는 패치 표현 간의 다양성을 명시적으로 촉진하기 위한 새로운 손실 함수를 비전 트랜스포머 훈련에 도입한다. 이를 통해 더 구분력 있는 특징 추출이 가능해진다. 실험적으로 제안된 기법이 훈련을 안정화시키고, 더 넓고 깊은 비전 트랜스포머를 훈련할 수 있음을 보였다. 또한, 다양화된 특징이 전이 학습에서 하류 작업에 크게 기여함을 입증하였다. 세분화 분할(task)의 경우, Cityscapes와 ADE20k 데이터셋에서 최신 기준(SOTA) 성능을 향상시켰다. 본 연구의 코드는 https://github.com/ChengyueGongR/PatchVisionTransformer 에서 공개되어 있다.