
要約
再帰的モデル、例えば再帰型ニューラルネットワーク(RNN)やニューラル常微分方程式(Neural ODE)は、その本質的な逐次性のため、長年にわたり訓練が遅いという問題に直面してきました。多くの研究者が、再帰モデルは並列化できないと考えていた長年の課題に対して、本研究では、モデルのアーキテクチャに特別な構造を必要とせず、出力の精度を損なうことなくGPU上での評価を最大3桁(1000倍)高速化する並列アルゴリズムを提案することで、この長年の信念に挑戦します。このアルゴリズムにより、従来の逐次的手法と比較して、再帰モデルの訓練速度が10倍以上に向上し、訓練結果に有意な差は生じません。この高速化された訓練手法を活用することで、17,000個の時系列サンプルを含む長期時系列分類問題において、ゲート付き再帰ユニット(GRU)の有効性を新たに発見しました。本研究は、非線形再帰モデルが長期シーケンス問題に応用可能な可能性を解き放つための第一歩となるものです。