2달 전
Lookahead Optimizer: k 단계 전진, 1 단계 후진
Michael R. Zhang; James Lucas; Geoffrey Hinton; Jimmy Ba

초록
대부분의 성공적인 딥 뉴럴 네트워크는 확률적 경사 하강법(SGD) 알고리즘의 변형을 사용하여 훈련됩니다. 최근 SGD를 개선하기 위한 시도들은 크게 두 가지 접근 방식으로 분류될 수 있습니다: (1) AdaGrad 및 Adam과 같은 적응 학습률 방안, 그리고 (2) heavy-ball 및 Nesterov 모멘텀과 같은 가속화 방안입니다. 본 논문에서는 이러한 이전 접근 방식과 독립적이며 두 세트의 가중치를 반복적으로 업데이트하는 새로운 최적화 알고리즘인 Lookahead를 제안합니다. 직관적으로, 이 알고리즘은 다른 최적화기에서 생성된 빠른 가중치 시퀀스를 미리 살펴보면서 탐색 방향을 선택합니다. 우리는 Lookahead가 내부 최적화기의 학습 안정성을 개선하고 계산 및 메모리 비용이 극히 적은 상태에서 분산을 낮출 수 있음을 보여줍니다. 실험 결과, Lookahead는 ImageNet, CIFAR-10/100, 신경 기계 번역, 그리고 Penn Treebank 등 다양한 데이터셋에서 기본 하이퍼파라미터 설정 조차도 SGD와 Adam의 성능을 크게 향상시킬 수 있음을 입증하였습니다.