11일 전

표현 학습을 위한 효율적인 자기지도 학습 비전 트랜스포머

Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao
표현 학습을 위한 효율적인 자기지도 학습 비전 트랜스포머
초록

본 논문은 시각적 표현 학습을 위한 효율적인 자기지도 학습 시각 변환기(ESViT) 개발을 위한 두 가지 기법을 탐구한다. 먼저, 광범위한 실험적 연구를 통해 다단계 아키텍처와 희소 자기주의(self-attention)를 활용할 경우 모델링 복잡도를 크게 감소시킬 수 있음을 보여주지만, 이미지 영역 간의 세밀한 대응 관계를 포착하는 능력이 손실된다는 점을 확인하였다. 두 번째로, 영역 매칭(region matching)이라는 새로운 사전 학습 태스크를 제안하여 모델이 세밀한 영역 간 의존성을 학습할 수 있도록 하였으며, 그 결과 학습된 시각 표현의 품질이 크게 향상됨을 확인하였다. 실험 결과, 두 기법을 결합한 ESViT는 ImageNet 선형 프로브 평가에서 81.3%의 top-1 정확도를 달성하여 기존 기법 대비 약 한 차수 높은 처리 속도를 기록하였다. 하류 선형 분류 작업으로의 전이 시험에서도 18개 데이터셋 중 17개에서 감독 학습 기반 대조군을 상회하는 성능을 보였다. 코드 및 모델은 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/microsoft/esvit

표현 학습을 위한 효율적인 자기지도 학습 비전 트랜스포머 | 최신 연구 논문 | HyperAI초신경