1ヶ月前

深層平衡モデル

Shaojie Bai; J. Zico Kolter; Vladlen Koltun
深層平衡モデル
要約

私たちはシーケンシャルデータのモデリングに新しいアプローチを提案します:深層平衡モデル(Deep Equilibrium Model, DEQ)。既存の多くの深層シーケンスモデルにおいて、隠れ層が固定点に向かって収束するという観察に基づいて、DEQアプローチではルートフィンド法を用いてこれらの平衡点を直接見つけ出します。この方法は無限の深さを持つ(重み共有の)フィードフォワードネットワークを実行することと同等ですが、平衡点での逆伝播を暗黙微分により解析的に行うことができるという特筆すべき利点があります。このアプローチを使用することで、ネットワークの有効な「深さ」に関わらず、学習と予測には定数メモリのみが必要となります。私たちはDEQが2つの最先端の深層シーケンスモデル、すなわち自己注意変換器(Self-Attention Transformer)とトレリスネットワーク(Trellis Network)にどのように適用できるかを示します。WikiText-103ベンチマークなどの大規模言語モデリングタスクにおいて、DEQは1) 類似のパラメータ数でこれらの最先端モデルよりもしばしば性能を向上させること;2) 既存のモデルと同程度の計算要件を持っていること;3) 大規模シーケンスモデルの学習におけるボトルネックであるメモリ消費量を大幅に削減できること(私たちの実験では最大88%の削減を達成しています);を示しています。コードはhttps://github.com/locuslab/deq で利用可能です。

深層平衡モデル | 最新論文 | HyperAI超神経