
심층 신경망에서 활성화 함수로 사용할 수 있는 함수는 무엇인가? 본 논문은 직교 기저를 기반으로 하는 함수족, 즉 헤르미트 다항식 기저와 푸리에 삼각함수 기저, 그리고 다항식 기저의 트로피칼화(tropicalization)로부터 유도된 기저를 탐구한다. 우리의 연구 결과, 단순한 분산 보존 초기화( variance-preserving initialization)를 통해 추가적인 클램핑 메커니즘 없이도 이러한 활성화 함수들이 깊은 모델, 예를 들어 OpenWebText에서 다음 토큰 예측을 위한 GPT-2나 ImageNet에서 이미지 분류를 위한 ConvNeXt를 성공적으로 훈련시키는 데 사용될 수 있음을 보였다. 본 연구는 특히 다항식 활성화 함수에서 흔히 발생하는 활성화 및 기울기의 폭발(explosion)과 소실(vanishing) 문제를 해결하며, 대규모 학습 과제의 효율성을 향상시킬 수 있는 길을 열었다. 또한 본 방법은 다항식 활성화 함수를 갖는 신경망이 다변수 다항식 사상(multivariate polynomial mappings)으로 해석될 수 있음을 밝혀내며, 신경망의 구조에 대한 통찰을 제공한다. 마지막으로, 헤르미트 보간(Hermite interpolation)을 활용하여, 함수값뿐 아니라 도함수까지 일치시키는 방식으로 기존 사전 훈련된 모델에서 사용되는 전통적인 활성화 함수들을 근사할 수 있음을 보여주며, 이는 특히 미세 조정(fine-tuning) 작업에 매우 유용함을 시사한다. 이러한 활성화 함수들은 https://github.com/K-H-Ismail/torchortho 에서 접근할 수 있는 torchortho 라이브러리에 포함되어 있다.