3달 전

자기지도 학습 시각 Transformer의 훈련에 관한 실증 연구

Xinlei Chen, Saining Xie, Kaiming He
자기지도 학습 시각 Transformer의 훈련에 관한 실증 연구
초록

이 논문은 새로운 방법을 제안하지 않는다. 대신 최근 컴퓨터 비전 분야의 급속한 발전 속에서 반드시 알아야 할 기초적인 기준선(baseline)인 자기지도 학습(self-supervised learning)을 활용한 비전 트랜스포머(Vision Transformer, ViT)의 단순하면서도 점진적인 학습 전략을 탐구한다. 표준 컨볼루션 네트워크의 학습 레시피는 이미 매우 성숙하고 안정적인 반면, ViT의 경우 특히 자기지도 학습 환경에서 학습이 더욱 복잡해지기 때문에 여전히 적절한 학습 레시피가 정립되지 않은 상황이다. 본 연구에서는 근본에 돌아가 자기지도 학습을 위한 ViT 학습에 있어 여러 핵심 구성 요소의 영향을 체계적으로 조사한다. 그 결과, 정확도 저하의 주요 원인으로 불안정성(stability)이 나타나며, 이는 오히려 우수한 성능 결과로 가려져 있을 수 있음을 관찰하였다. 우리는 이러한 결과가 실제로는 부분적인 실패임을 밝히고, 학습 과정을 더 안정적으로 만든 경우 성능이 향상됨을 보여준다. 본 연구에서는 MoCo v3 및 여러 다른 자기지도 학습 프레임워크에서 ViT 성능을 벤치마킹하고, 다양한 측면에서의 아블레이션(ablation) 실험을 수행한다. 현재까지의 긍정적인 증거뿐 아니라, 여전히 남아 있는 도전과 열린 질문들에 대해서도 논의한다. 본 연구가 향후 연구에 유용한 데이터 포인트와 실질적인 경험을 제공하기를 기대한다.