2달 전

자기 정규화 신경망

Günter Klambauer; Thomas Unterthiner; Andreas Mayr; Sepp Hochreiter
자기 정규화 신경망
초록

딥 러닝은 합성곱 신경망(CNNs)을 통해 시각 분야와 순환 신경망(RNNs)을 통해 자연어 처리 분야에서 혁신을 가져왔습니다. 그러나 표준 피드포워드 신경망(FNNs)을 사용한 딥 러닝의 성공 사례는 드뭅니다. 잘 작동하는 FNNs는 일반적으로 얕으며, 따라서 여러 단계의 추상 표현을 활용할 수 없습니다. 우리는 고차원 추상 표현을 가능하게 하기 위해 자기 정규화 신경망(SNNs)를 소개합니다. 배치 정규화가 명시적인 정규화를 필요로 하는 반면, SNNs의 뉴런 활성화는 자동으로 평균이 0이고 분산이 1인 상태로 수렴합니다. SNNs의 활성화 함수는 "스케일링된 지수형 선형 유닛"(scaled exponential linear units, SELUs)이며, 이 함수는 자기 정규화 특성을 유도합니다. 바나흐 불변점 정리(Banach fixed-point theorem)를 사용하여, 많은 네트워크 층을 통해 전파되는 평균이 0에 가깝고 분산이 1에 가까운 활성화가 노이즈와 섭동이 존재하더라도 평균 0과 분산 1로 수렴함을 증명하였습니다. 이 수렴 특성은 (1) 많은 층을 가진 깊은 네트워크를 훈련시키고, (2) 강력한 정규화를 적용하며, (3) 학습 과정을 매우 견고하게 만드는 것을 가능하게 합니다. 또한, 단위 분산에 가까운 활성화가 아닌 경우, 우리는 분산의 상한과 하한을 증명하였으므로, 소실 그래디언트와 폭발적 그래디언트가 발생하지 않습니다. 우리는 SNNs를 (a) UCI 머신러닝 저장소의 121개 작업, (b) 약물 발견 벤치마크, 그리고 (c) 천문학 작업에서 표준 FNNs 및 다른 머신러닝 방법(랜덤 포레스트와 서포트 벡터 머신 등)과 비교하였습니다. SNNs는 121개 UCI 작업에서 모든 경쟁 FNN 방법보다 크게 우수하였으며, Tox21 데이터셋에서는 모든 경쟁 방법보다 우수하였으며, 천문학 데이터셋에서는 새로운 기록을 세웠습니다. 우승한 SNN 구조들은 종종 매우 깊습니다. 구현은 다음 주소에서 제공됩니다: github.com/bioinf-jku/SNNs.