비전 트랜스포머를 위한 상대적 위치 인코딩의 재고 및 개선

상대적 위치 인코딩(RPE)은 트랜스포머가 입력 토큰의 순서 정보를 효과적으로 포착하는 데 중요한 역할을 한다. 자연어 처리 분야에서는 그 효과성이 일반적으로 입증되어 왔다. 그러나 컴퓨터 비전 분야에서는 그 효과성에 대한 연구가 아직 충분히 이루어지지 않았으며, 심지어는 절대적 위치 인코딩과 동등하게 작동할 수 있는지 여부조차 논란의 대상이 되고 있다. 이러한 문제를 명확히 하기 위해, 먼저 기존의 상대적 위치 인코딩 기법들을 종합적으로 검토하고, 비전 트랜스포머(Vision Transformer)에 적용했을 때 각각의 장단점을 분석하였다. 이후 2차원 이미지에 특화된 새로운 상대적 위치 인코딩 방법, 즉 이미지 RPE(iRPE)를 제안한다. 제안된 방법은 방향성을 고려한 상대적 거리 모델링과 자기주의(self-attention) 메커니즘 내에서 쿼리(query)와 상대적 위치 임베딩 간의 상호작용을 동시에 고려한다. 제안된 iRPE는 간단하고 가벼운 구조를 가지며, 트랜스포머 블록에 쉽게 통합할 수 있다. 실험 결과, 별도의 하이퍼파라미터(예: 학습률, 가중치 감쇠율 등) 조정 없이도, DeiT와 DETR이 각각 ImageNet과 COCO 데이터셋에서 원래 버전 대비 최대 1.5% (Top-1 정확도) 및 1.3% (mAP)의 안정적인 성능 향상을 달성함을 확인하였다. 추가적인 아블레이션 및 분석을 통해 기존의 통념과는 상반된 흥미로운 발견도 도출되었다. 코드 및 모델은 https://github.com/microsoft/Cream/tree/main/iRPE 에서 공개되어 있다.