17일 전

대규모 배치 최적화기 현실 점검: 전통적이고 일반적인 최적화기는 배치 크기에 관계없이 충분하다

Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl
대규모 배치 최적화기 현실 점검: 전통적이고 일반적인 최적화기는 배치 크기에 관계없이 충분하다
초록

최근에 LARS와 LAMB 최적화 알고리즘이 대규모 배치 크기를 활용하여 신경망 학습을 더 빠르게 수행하기 위해 제안되었다. LARS는 헤비볼 모멘텀(Heavy-ball momentum)의 업데이트 규칙에 계층별 정규화를, LAMB는 Adam의 업데이트 규칙에 계층별 정규화를 추가한 것으로, 주요 벤치마크와 딥러닝 라이브러리에서 널리 채택되고 있다. 그러나 표준 최적화 알고리즘과의 공정한 비교 없이, LARS와 LAMB가 전통적이고 일반적인 알고리즘보다 실질적인 이점을 제공하는지 여부는 여전히 미해결 과제로 남아 있다. 본 연구에서는 네스테로프 모멘텀(Nesterov momentum)과 Adam과 같은 표준 최적화 알고리즘이 대규모 배치 크기에서도 LARS와 LAMB의 성능을 따라가거나 초월할 수 있음을 입증한다. 본 연구 결과는 이러한 배치 크기에서의 미래 비교를 위한 새로운, 더 강력한 기준선을 제시하며, 신경망 학습을 위한 최적화 알고리즘 비교의 어려움에 대한 통찰을 제공한다.

대규모 배치 최적화기 현실 점검: 전통적이고 일반적인 최적화기는 배치 크기에 관계없이 충분하다 | 최신 연구 논문 | HyperAI초신경