2달 전

파라미터 재초기화를 통한 주기적인 배치 크기 스케줄링

Norman Mu; Zhewei Yao; Amir Gholami; Kurt Keutzer; Michael Mahoney
파라미터 재초기화를 통한 주기적인 배치 크기 스케줄링
초록

최적의 매개변수 초기화는 신경망 학습에서 여전히 중요한 문제입니다. 부적절한 가중치 초기화는 학습 시간이 더 오래 걸리거나 최적해보다 열등한 해로 수렴할 수 있습니다. 본 연구에서는 학습 과정에서 반복적인 안내와 노이즈 주입을 통해 가중치를 재초기화하는 방법을 제안합니다. 이 방법은 신경망 학습에 대한 베이지안 관점을 기반으로 한 순환 배치 크기 스케줄을 통해 구현됩니다. 우리는 언어 모델링, 자연어 추론, 이미지 분류 등의 작업에서 광범위한 실험을 통해 우리의 방법을 평가하였습니다. 실험 결과, 우리의 방법은 언어 모델링 성능을 최대 7.91의 퍼플렉서티(perplexity)까지 개선하고, 학습 반복 횟수를 최대 61%까지 줄일 수 있음을 보여주었습니다. 또한, 스냅샷 앙상블(snapshot ensembling)과 적대적 학습(adversarial training)과 함께 사용할 수 있는 유연성을 갖추고 있음을 확인하였습니다.