3달 전

PowerNorm: Transformers 내 배치 정규화의 재고찰

Sheng Shen, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer
PowerNorm: Transformers 내 배치 정규화의 재고찰
초록

자연어 처리(NLP) 분야에서 신경망(NN) 모델에 사용되는 표준 정규화 방법은 계층 정규화(Layer Normalization, LN)이다. 이는 컴퓨터 비전 분야에서 널리 채택된 배치 정규화(Batch Normalization, BN)와는 다릅니다. NLP에서 LN가 선호되는 주된 이유는, BN을 단순히 적용할 경우 NLP 작업에서 성능이 크게 저하된다는 경험적 관찰 때문입니다. 그러나 이러한 현상의 근본적인 원인에 대한 체계적인 이해는 항상 명확하지는 않습니다. 본 논문에서는 NLP 트랜스포머 모델을 체계적으로 분석하여, 왜 BN이 LN에 비해 성능이 낮은지에 대해 탐구합니다. 연구 결과, 학습 도중 배치 차원을 따라 NLP 데이터의 통계량이 크게 변동함을 발견했습니다. 이로 인해 BN을 단순하게 구현할 경우 안정성이 떨어지게 됩니다. 이를 해결하기 위해 우리는 새로운 정규화 방식인 파워 정규화(Power Normalization, PN)를 제안합니다. PN은 (i) BN에서의 평균이 0인 정규화 조건을 완화하고, (ii) 각 배치의 통계량 대신 운동 제곱평균(moving quadratic mean)을 도입하여 변동성을 안정화하며, (iii) 전방 전파 과정에서 운동 통계량을 포함하기 위해 근사적 역전파(approximate backpropagation)를 사용함으로써 이 문제를 해결합니다. 우리는 약한 가정 하에서 이론적으로 PN이 BN보다 손실 함수의 리프시츠(Lipschitz) 상수를 더 작게 만든다는 것을 보였으며, 또한 근사적 역전파 방식이 유한한 기울기(gradient)를 보장함을 증명했습니다. 다양한 NLP 작업에서 트랜스포머 모델에 대해 PN을 광범위하게 평가한 결과, PN이 LN과 BN 모두를 크게 능가함을 확인했습니다. 특히, IWSLT14/WMT14에서는 BLEU 점수에서 LN 대비 각각 0.4/0.6 포인트 향상되었으며, PTB/WikiText-103에서는 PPL에서 각각 5.6/3.0 포인트 개선되었습니다. 본 연구의 코드는 \url{https://github.com/sIncerass/powernorm}에서 공개되어 있습니다.