17일 전

적응형 최적화를 위한 조정되지 않은 웜업의 적정성에 관한 연구

Jerry Ma, Denis Yarats
적응형 최적화를 위한 조정되지 않은 웜업의 적정성에 관한 연구
초록

아다프티브 최적화 알고리즘은 아담(Adam)과 같은 알고리즘이 딥러닝 분야에서 널리 사용되고 있다. 이러한 알고리즘의 안정성을 높이기 위해 학습률에 대한 웜업(warmup) 스케줄을 적용하는 것이 일반적이다. 최근 연구는 웜업 스케줄을 선택하고 튜닝하는 데 어려움이 있다는 점에 착안하여, 아담의 적응형 학습률에 대한 자동 분산 보정(auto-variance rectification)을 제안하며, 이를 통해 기존 아담 알고리즘을 능가하고 웜업을 통한 비용이 큰 튜닝의 필요성을 줄일 수 있다고 주장했다. 본 연구에서는 이러한 분석을 반박하고, 학습 안정성과 더 직접적으로 관련된 업데이트 항의 크기라는 관점에서 웜업의 필요성을 새로운 방식으로 설명한다. 또한 몇 가지 ‘경험적 규칙( rule-of-thumb)’ 기반의 웜업 스케줄을 제안하며, 일반적인 실용적 환경에서 단순한 튜닝 없이 적용된 아담의 웜업이 RAdam과 거의 동일한 성능을 보임을 실험적으로 입증한다. 결론적으로, 연구자들은 아담과 함께 선형 웜업을 사용하는 것을 권장하며, 합리적인 기본값으로는 $2 / (1 - β_2)$ 개의 학습 반복 동안 선형 웜업을 적용하는 것을 제안한다.

적응형 최적화를 위한 조정되지 않은 웜업의 적정성에 관한 연구 | 최신 연구 논문 | HyperAI초신경