2ヶ月前

ニューラル常微分方程式

Ricky T. Q. Chen; Yulia Rubanova; Jesse Bettencourt; David Duvenaud

要約

新しい深層ニューラルネットワークモデルのファミリーを紹介します。従来の手法とは異なり、隠れ層の離散的なシーケンスを指定する代わりに、隠れ状態の微分をニューラルネットワークでパラメータ化します。ネットワークの出力は、ブラックボックスの微分方程式ソルバーを使用して計算されます。これらの連続深度モデルは、定数のメモリコストを持ち、各入力に対して評価戦略を適応させることができます。また、数値精度と速度を明示的にトレードオフすることができます。これらの特性を連続深度残差ネットワークと連続時間潜在変数モデルで実証しています。さらに、最大尤度法による学習が可能であり、データ次元を分割または順序付けずに訓練できる生成モデルである連続正規化フローも構築しました。学習においては、任意のODE（常微分方程式）ソルバーの内部操作にアクセスせずに効率的に逆伝播を行う方法を示します。これにより、ODEが大きなモデル内でのエンドツーエンド学習が可能となります。