11일 전
표현 학습을 위한 효율적인 자기지도 학습 비전 트랜스포머
Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao

초록
본 논문은 시각적 표현 학습을 위한 효율적인 자기지도 학습 시각 변환기(ESViT) 개발을 위한 두 가지 기법을 탐구한다. 먼저, 광범위한 실험적 연구를 통해 다단계 아키텍처와 희소 자기주의(self-attention)를 활용할 경우 모델링 복잡도를 크게 감소시킬 수 있음을 보여주지만, 이미지 영역 간의 세밀한 대응 관계를 포착하는 능력이 손실된다는 점을 확인하였다. 두 번째로, 영역 매칭(region matching)이라는 새로운 사전 학습 태스크를 제안하여 모델이 세밀한 영역 간 의존성을 학습할 수 있도록 하였으며, 그 결과 학습된 시각 표현의 품질이 크게 향상됨을 확인하였다. 실험 결과, 두 기법을 결합한 ESViT는 ImageNet 선형 프로브 평가에서 81.3%의 top-1 정확도를 달성하여 기존 기법 대비 약 한 차수 높은 처리 속도를 기록하였다. 하류 선형 분류 작업으로의 전이 시험에서도 18개 데이터셋 중 17개에서 감독 학습 기반 대조군을 상회하는 성능을 보였다. 코드 및 모델은 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/microsoft/esvit