2ヶ月前

活動の疎性と時間方向への疎な逆伝播を用いた効率的な再帰型アーキテクチャ

Anand Subramoney; Khaleelulla Khan Nazeer; Mark Schöne; Christian Mayr; David Kappel
活動の疎性と時間方向への疎な逆伝播を用いた効率的な再帰型アーキテクチャ
要約

再帰型ニューラルネットワーク(RNN)は、その表現力と低計算要件により、リソース制約のあるシステムでのシーケンスタスクの解決に適しています。しかし、RNNが効率と性能の面で持つ能力と、実世界のアプリケーション要件との間にはまだギャップがあります。すべての時間ステップですべてのニューロンの活性化をすべての接続されたニューロンに伝播させるために発生するメモリと計算要件、および活性化の逐次依存性が、RNNの学習や使用における非効率性の一因となっています。本研究では、生物学的なニューロンダイナミクスに着想を得た解決策を提案します。この方法により、RNNユニット間の通信が疎であり離散的になります。これにより、時間逆伝播法(BPTT)による逆伝播も計算上疎で効率的になります。我々のモデルはゲート付き再帰型ユニット(GRU)に基づいており、閾値によってトリガーされる離散イベントを発信するユニットを拡張することで、イベントがない場合に他のユニットへ情報が伝えられないようにしています。理論的に示したところによると、ユニット間の通信量、すなわち順方向と逆方向の伝播に必要な計算量は、ネットワーク内のイベント数に比例します。我々のモデルはタスク性能を損なうことなく効率性を達成し、言語モデリングなどの実世界タスクにおいて最先端の再帰型ネットワークモデルと競合する性能を示しました。動的な活動疎性メカニズムにより、我々のモデルは新しいエネルギー効率の高いニューモルフィックハードウェアにも適しています。コードは以下のURLから入手可能です: https://github.com/KhaleelKhan/EvNN/

活動の疎性と時間方向への疎な逆伝播を用いた効率的な再帰型アーキテクチャ | 最新論文 | HyperAI超神経