2ヶ月前

再帰型ニューラルネットワークのゲーティング機構の改善

Albert Gu; Caglar Gulcehre; Tom Le Paine; Matt Hoffman; Razvan Pascanu
再帰型ニューラルネットワークのゲーティング機構の改善
要約

ゲーティング機構は、ニューラルネットワークモデルにおいて広く使用されており、それらは勾配が深さや時間を通じてより容易に逆伝播するように許可します。しかし、その飽和特性は独自の問題を引き起こします。例えば、再帰型モデルでは、これらのゲートが長時間遅延を介して情報を伝播させるために出力を1に近づける必要があり、これは飽和領域で動作することを要求し、ゲート機構の勾配ベース学習を阻害します。本研究では、この問題に対処するために標準的なゲーティング機構に対する2つの相乗効果を持つ修正を導出し、それらは実装が簡単であり、新たなハイパーパラメータを導入せず、ゲートが飽和状態に近い場合でも学習性を向上させます。また、これらの変更がクロノ初期化や順序付きニューロンなどの最近提案された代替ゲーティング機構とどのように関連し、改善しているかを示します。経験的に、我々の単純なゲーティング機構は一貫して性能を向上させ、合成記憶タスク、逐次画像分類、言語モデリング、強化学習など幅広い応用において特に長期依存性が関わる場合に再帰型モデルの性能を向上させます。注:「chrono initialization」(クロノ初期化)、「Ordered Neurons」(順序付きニューロン)などの不馴れな専門用語については一般的な日本語訳を使用しました。ただし、これらの用語が特定の研究コミュニティ内で既に定着している場合は適宜調整が必要です。

再帰型ニューラルネットワークのゲーティング機構の改善 | 最新論文 | HyperAI超神経