17일 전

레이어 정규화 이해 및 개선

Jingjing Xu, Xu Sun, Zhiyuan Zhang, Guangxiang Zhao, Junyang Lin
레이어 정규화 이해 및 개선
초록

레이어 정규화(LayerNorm)는 중간 계층의 분포를 정규화하는 기법으로, 더 부드러운 기울기, 더 빠른 학습 속도, 그리고 더 뛰어난 일반화 정확도를 가능하게 한다. 그러나 이 기법의 효과가 어디에서 비롯되는지에 대해서는 여전히 명확하지 않다. 본 논문에서 우리의 주요 기여는 레이어 정규화의 효과성을 더 깊이 이해하기 위해 한 단계 더 나아가는 것이다. 이전의 많은 연구들은 레이어 정규화의 성공이 전방 정규화(foward normalization)에 기인한다고 보았다. 그러나 우리는 이와 달리, 평균과 분산의 도함수(derivative)가 전방 정규화보다 더 중요하다는 점을 발견했다. 특히, 역전파 시 기울기를 재중심화(re-centering)하고 재스케일링(re-scaling)함으로써 성능 향상이 이루어진다는 점을 규명하였다. 또한, 레이어 정규화의 파라미터인 편향(bias)과 게인(gain)은 과적합(over-fitting)의 위험을 증가시키며, 대부분의 경우에 유의미한 효과를 보이지 않는다는 점을 발견하였다. 실험 결과, 편향과 게인을 제거한 단순한 버전의 레이어 정규화(LayerNorm-simple)가 네 가지 데이터셋에서 기존 레이어 정규화보다 우수한 성능을 보였으며, En-Vi 기계 번역에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 과적합 문제를 해결하기 위해, 편향과 게인 대신 새로운 변환 함수를 도입하여 제안한 새로운 정규화 방법인 적응형 정규화(Adaptive Normalization, AdaNorm)는 여덟 개 데이터셋 중 일곱 개에서 기존 레이어 정규화보다 더 우수한 결과를 보였다.

레이어 정규화 이해 및 개선 | 최신 연구 논문 | HyperAI초신경