2달 전

비라벨 데이터에 대한 일관된 설명이 여러 가지 있습니다: 평균을 내야 하는 이유

Ben Athiwaratkun; Marc Finzi; Pavel Izmailov; Andrew Gordon Wilson
비라벨 데이터에 대한 일관된 설명이 여러 가지 있습니다: 평균을 내야 하는 이유
초록

현재 반감독 학습에서 가장 성공적인 접근 방식은 일관성 정규화(consistency regularization)를 기반으로 하며, 이는 모델이 입력과 매개변수의 작은 변동에 대해 견고하게 작동하도록 훈련시키는 방법입니다. 일관성 정규화를 이해하기 위해 손실 기하학(loss geometry)이 훈련 절차와 어떻게 상호작용하는지 개념적으로 탐구합니다. 일관성 손실은 감독만으로 이루어진 훈련보다 일반화 성능을 크게 개선하지만, 우리는 확률적 경사 하강법(SGD)이 일관성 손실에 수렴하는 데 어려움을 겪으며, 계속해서 큰 단계를 밟아 테스트 데이터의 예측 결과가 변경되는 것을 보여줍니다. 이러한 관찰 결과를 바탕으로, 최근 제안된 확률적 가중치 평균(Stochastic Weight Averaging, SWA) 방법을 사용하여 일관성 기반 방법들을 훈련시키는 것을 제안합니다. SWA는 SGD의 경로를 따라 수정된 학습률 스케줄로 가중치를 평균화하는 접근 방식입니다. 또한, 주기적인 학습률 스케줄 내에서 여러 지점을 평균화하여 수렴을 더욱 가속화하는 fast-SWA도 제안합니다. 가중치 평균화를 통해 CIFAR-10과 CIFAR-100에서 다양한 양의 라벨링된 훈련 데이터에 대해 알려진 최상의 반감독 학습 결과를 달성했습니다. 예를 들어, 4000개의 라벨만 사용해 CIFAR-10에서 5.0% 오류율을 달성했으며, 이는 문헌상 이전 최고 결과인 6.3%보다 우수한 성능입니다.