ELSA: 비전 트랜스포머를 위한 향상된 로컬 자기주의적 어텐션

자기주의(self-attention)는 장거리 의존성 모델링에서 강력한 능력을 지니고 있지만, 국소적인 세부 수준의 특징 학습에서는 약점을 보인다. 국소 자기주의(Local Self-Attention, LSA)의 성능은 컨볼루션(convolution)과 비슷한 수준에 머무르며, 동적 필터(dynamic filters)에 비해 떨어지는 것으로 나타나, 연구자들 사이에서 LSA를 사용할지 여부, 혹은 LSA와 대안 기법 중 어느 것이 더 우수한지, 그리고 LSA가 왜 평범한 성능을 보이는지에 대한 의문이 제기되고 있다. 이러한 문제를 명확히 하기 위해, 우리는 채널 설정(channel setting)과 공간 처리(spatial processing)의 두 가지 관점에서 LSA와 그 대안 기법들을 종합적으로 조사하였다. 그 결과, 공간 주의(spatial attention)의 생성과 적용 과정에 숨겨진 핵심 요인이 있음을 발견하였으며, 특히 상대적 위치 임베딩(relative position embeddings)과 인접 필터 적용이 핵심 요소임을 확인하였다. 이러한 발견을 바탕으로, 하다마르드 주의(Hadamard attention)와 그로스 헤드(ghost head)를 도입한 개선된 국소 자기주의(Enhanced Local Self-Attention, ELSA)를 제안한다. 하다마르드 주의는 인접한 경우에 주의를 효율적으로 생성하면서도 고차원 매핑(high-order mapping)을 유지하는 데 기여하며, 그로스 헤드는 주의 맵과 정적 행렬을 결합하여 채널 용량을 증가시킨다. 실험 결과를 통해 ELSA의 효과성을 입증하였다. 아키텍처나 하이퍼파라미터를 수정하지 않고 LSA를 ELSA로 단순 대체하는 것만으로도 Swin Transformer \cite{swin}의 정확도(top-1 accuracy)가 최대 +1.4 향상됨을 확인하였다. 또한 ELSA는 VOLO \cite{volo}의 D1부터 D5까지의 모든 버전에서 일관된 성능 향상을 가져왔으며, ELSA-VOLO-D5는 추가 학습 이미지 없이 ImageNet-1K에서 87.2의 정확도를 달성하였다. 더 나아가 하류 작업(downstream tasks)에서 ELSA의 성능을 평가한 결과, COCO에서 박스 Ap(box Ap) 기준 최대 +1.9, 마스크 Ap(mask Ap) 기준 최대 +1.3의 향상을 기록하였으며, ADE20K에서는 최대 +1.9의 mIoU 향상이 나타났다. 코드는 \url{https://github.com/damo-cv/ELSA}에서 공개되어 있다.