
초록
컨볼루션 신경망(CNN)을 위한 자기지도 학습(self-supervision)을 통한 표현 학습은 시각 작업에서 효과적임이 입증되었다. CNN의 대안으로 제안된 비전 트랜스포머(ViT)는 공간적 자기주의(spatial self-attention)와 채널 수준의 피드포워드 네트워크를 통해 강력한 표현 능력을 지닌다. 최근 연구들은 자기지도 학습이 ViT의 큰 잠재력을 발휘하는 데 도움이 된다고 밝혔다. 그러나 대부분의 기존 연구는 CNN에 적합하게 설계된 자기지도 학습 전략, 예를 들어 샘플의 인스턴스 수준 구분을 따르며, ViT 고유의 특성을 간과하고 있다. 우리는 공간적 차원과 채널 차원에서의 관계 모델링이 ViT를 다른 네트워크와 구분짓는 핵심 특성임을 관찰하였다. 이 특성을 강화하기 위해, 자기지도 학습을 위한 특징 자기관계(feature SElf-RElation, SERE)를 제안한다. 구체적으로, 여러 시점에서의 특징 임베딩에만 기반한 전통적인 자기지도 학습이 아닌, 특징의 자기관계—즉, 공간적 또는 채널적 자기관계—를 활용하여 자기지도 학습을 수행한다. 자기관계 기반 학습은 ViT의 관계 모델링 능력을 더욱 강화하여, 다양한 후속 작업에서 안정적으로 성능을 향상시키는 강력한 표현을 도출한다. 본 연구의 소스 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/MCG-NKU/SERE.