11일 전

자기지도 학습 ResNet의 한계를 넘어서기: ImageNet에서 레이블 없이도 지도 학습을 능가할 수 있을까?

Nenad Tomasev, Ioana Bica, Brian McWilliams, Lars Buesing, Razvan Pascanu, Charles Blundell, Jovana Mitrovic
자기지도 학습 ResNet의 한계를 넘어서기: ImageNet에서 레이블 없이도 지도 학습을 능가할 수 있을까?
초록

최근 잔차 네트워크(Residual Networks)를 활용한 자기지도 학습(self-supervised learning) 방법의 발전에도 불구하고, ImageNet 분류 벤치마크에서는 여전히 지도 학습(supervised learning)에 비해 성능이 떨어지며, 성능이 중요한 환경에서의 적용 가능성을 제한하고 있다. ReLIC [Mitrovic 등, 2021]에서 제시된 이전의 이론적 통찰을 바탕으로, 우리는 자기지도 학습에 추가적인 유도적 편향(inductive biases)을 도입한다. 본 연구에서는 다양한 적절히 구성된 데이터 뷰(views)에 대해 명시적인 불변성 손실(explicit invariance loss)과 대조적 목적함수(contrastive objective)를 결합하는 새로운 자기지도 표현 학습 방법인 ReLICv2를 제안한다. 이를 통해 허위 상관관계(spurious correlations) 학습을 방지하고, 더 정보량이 풍부한 표현을 얻을 수 있다. ReLICv2는 ResNet50 기반의 선형 평가(linear evaluation)에서 ImageNet에서 77.1%의 top-1 정확도를 달성하여 기존 최고 성능을 절대적으로 +1.5% 향상시켰으며, 더 큰 ResNet 모델에서는 최대 80.6%의 성능을 기록하여 이전 자기지도 접근법보다 최대 +2.3%의 성능 우위를 보였다. 특히 ReLICv2는 다양한 ResNet 아키텍처에 걸쳐 동일한 조건에서 비교했을 때, 처음으로 지도 학습 베이스라인을 일관되게 상회하는 비지도 표현 학습 방법이 되었다. 또한 ReLICv2를 활용해 기존 연구보다 더 강건하고 전이 가능한 표현을 학습할 수 있었으며, 이미지 분류 및 의미 세그멘테이션 모두에서 분포 외(out-of-distribution) 일반화 성능이 향상됨을 확인하였다. 마지막으로, ResNet 인코더를 사용하고 있음에도 불구하고, ReLICv2는 최신 자기지도 비전 트랜스포머(state-of-the-art self-supervised vision transformers)와 경쟁 가능한 성능을 보였다.