16일 전

자기지도 학습 모델의 전이성 향상을 위한 배치 정규화 미세조정

{Álvaro García-Martín, Pablo Carballeira, Marcos Escudero-Viñolo, Kirill Sirotkin}
초록

라벨이 없는 데이터의 풍부함과 자기지도 학습(Self-Supervised Learning, SSL)의 발전으로 인해, 많은 전이 학습 시나리오에서 SSL이 선호되는 선택지가 되었다. SSL 기법의 급속하고 지속적인 발전으로 인해 특정 작업/도메인에 대해 미리 학습된 수많은 모델들이 존재하게 되었으며, 이는 새로운 작업/도메인에 대한 전이 성능을 추정할 수 있는 방법의 필요성을 제기한다. 일반적으로 이러한 추정기의 역할을 수행하는 것은 고정된 특징 추출기 위에 선형 분류기를 학습하는 선형 탐색(linear probing)이다. 본 연구에서는 선형 탐색의 한계를 다루며, 이는 종종 전이 학습의 최종 목표인 엔드투엔드(end-to-end) 미세조정 모델의 성능과 강한 상관관계를 가지지 못한다는 점이다. 일부 경우에서는 모델의 잠재력을 심각하게 잘못 추정하기도 한다. 우리는 배치 정규화(Batch Normalization) 계층을 고정하지 않고 분류기와 함께 공동 미세조정함으로써 훨씬 더 우수한 대체 작업(proxy task)을 얻는 방법을 제안한다. ResNet-50 기준으로 모델 파라미터의 단지 0.16% 추가 학습 비용만으로도, 제안된 방법은 (i) 엔드투엔드 미세조정 성능과 더 강한 상관관계를 가지며, (ii) 다수 및 소수 샘플 학습 환경에서 선형 탐색 성능을 향상시키고, (iii) 일부 사례에서는 선형 탐색과 엔드투엔드 미세조정 모두를 능가하여 병리학 데이터셋에서 최신 기준(SOTA) 성능에 도달할 수 있다. 마지막으로, 배치 정규화 학습이 특징 분포에 미치는 변화를 분석하고, 성능 향상의 원인으로서의 가능성을 논의한다. 코드는 https://github.com/vpulab/bn_finetuning 에서 공개되어 있다.

자기지도 학습 모델의 전이성 향상을 위한 배치 정규화 미세조정 | 최신 연구 논문 | HyperAI초신경