17일 전

넓은 최소값 밀도 가설과 탐색-이용 학습률 스케줄링

Nikhil Iyer, V Thejas, Nipun Kwatra, Ramachandran Ramjee, Muthian Sivathanu
넓은 최소값 밀도 가설과 탐색-이용 학습률 스케줄링
초록

일부 논문들은 넓은 최소값이 좁은 최소값보다 일반화 성능이 더 좋다고 주장한다. 본 논문에서는 넓은 최소값의 일반화 특성을 뒷받침하는 세부적인 실험을 수행함과 동시에, 넓은 최소값의 밀도가 좁은 최소값의 밀도보다 낮을 가능성이 있다는 새로운 가설에 대한 실증적 증거를 제시한다. 또한 이 가설을 바탕으로, 탐색(Explore)과 활용(Exploit)을 효과적으로 조화시키는 새로운 학습률 스케줄링 전략을 설계하였다. 다양한 이미지 및 자연어 처리 데이터셋에서 기존의 수작업으로 조정된 학습률 기준선과 비교하여, 본 연구의 탐색-활용 학습률 스케줄링은 동일한 학습 예산 내에서 최대 0.84% 높은 절대 정확도를 달성하거나, 원래 보고된 정확도를 유지하면서 학습 시간을 최대 57% 감소시킬 수 있음을 보였다. 예를 들어, 고성능 모델의 학습률 스케줄링만을 수정함으로써 IWSLT'14 (DE-EN) 데이터셋에서 현재까지의 최고 성능(SOTA) 정확도를 달성하였다.