
要約
深層ニューラルネットワークにおける活性化関数として利用可能な関数は何か?本稿では、正規直交基底に基づく関数族、特にエルミート多項式基底やフーリエ三角関数基底、および多項式基底のトロピカル化によって得られる基底を対象に検討する。本研究の結果、単純な分散保存型初期化を用い、追加のクリッピング機構を設けずに、これらの活性化関数を用いて深層モデルの学習が成功することを示した。具体的には、OpenWebTextにおける次トークン予測タスクに対するGPT-2や、ImageNetにおける画像分類タスクに対するConvNeXtの学習が実現可能である。本研究は、特に多項式活性化関数に顕著に見られる活性化値および勾配の爆発・消失問題に取り組み、大規模学習タスクの効率性向上に向けた新たな道を開く。さらに、本手法はニューラルネットワークの構造に関する洞察を提供し、多項式活性化関数を有するネットワークが多次元多項式写像として解釈可能であることを明らかにした。最後に、エルミート補間を用いることで、関数値とその導関数の両方を一致させることで、事前学習済みモデルに用いられる古典的な活性化関数を高精度で近似可能であることを示し、微調整(fine-tuning)タスクにおいて特に有用であることを示した。これらの活性化関数は、https://github.com/K-H-Ismail/torchortho からアクセス可能な torchortho ライブラリで利用可能である。