2달 전

Deep Learning에서 Piecewise Linear Activation Units를 사용할 때 Normalisation Layers의 중요성에 관하여

Zhibin Liao; Gustavo Carneiro
Deep Learning에서 Piecewise Linear Activation Units를 사용할 때 Normalisation Layers의 중요성에 관하여
초록

깊은 피드포워드 신경망이 단편적으로 선형 활성화 함수를 사용하여 여러 공개 데이터셋에서 최고 수준의 결과를 생성하고 있습니다. 깊은 학습 모델과 단편적으로 선형 활성화 함수의 조합은 유사한 입력 예제의 분류에 특화된 대규모 하위 네트워크를 사용하여 지수적으로 복잡한 함수를 추정할 수 있게 합니다. 훈련 과정 중 이러한 하위 네트워크는 다른 하위 네트워크와 매개변수를 공유해야 한다는 사실을 기반으로 하는 암시적인 정규화 방식을 통해 과적합을 피합니다. 이 프레임워크를 사용하여 우리는 이러한 모델의 성능을 더욱 개선할 수 있는 경험적 관찰을 수행했습니다. 우리는 이러한 모델이 단편적으로 선형 활성화 함수의 영역에 대해 데이터 포인트의 균형 잡힌 초기 분포를 가정한다는 것을 발견했습니다. 이 가정이 위반되면, 단편적으로 선형 활성화 유닛이 순수하게 선형 활성화 유닛으로 변질될 수 있으며, 이는 그들의 복잡한 함수 학습 능력을 크게 감소시키는 결과를 초래할 수 있습니다. 또한, 모델 레이어의 수가 증가함에 따라, 불균형한 초기 분포는 모델을 불안정하게 만듭니다. 따라서, 우리는 깊은 피드포워드 신경망에 단편적으로 선형 활성화 함수와 배치 정규화 유닛을 도입하는 것을 제안합니다. 이는 각 활성화 함수 영역이 상대적으로 많은 훈련 샘플로 훈련되는 더 균형 잡힌 활성화 유닛 사용을 촉진하며, 또한 매우 깊은 학습 모델의 사전 조건부 상태(pre-conditioning)를 촉진합니다. 우리는 네트워크 인 네트워크 모델에 맥스아웃(maxout) 및 배치 정규화 유닛을 도입함으로써 CIFAR-10, CIFAR-100, MNIST, 그리고 SVHN 데이터셋에서 현재 최고 수준보다 우수하거나 비슷한 분류 결과를 생성하는 모델을 얻을 수 있음을 보여주었습니다.

Deep Learning에서 Piecewise Linear Activation Units를 사용할 때 Normalisation Layers의 중요성에 관하여 | 최신 연구 논문 | HyperAI초신경