8日前

AC/DC:深層ニューラルネットワークの交差圧縮/復元学習

Alexandra Peste, Eugenia Iofinova, Adrian Vladu, Dan Alistarh
AC/DC:深層ニューラルネットワークの交差圧縮/復元学習
要約

深層ニューラルネットワーク(DNN)の計算要求が増大する中、スパースでありながら高い精度を維持できるDNNモデルの開発が注目を集めている。近年の研究では、トレーニング中の計算コストを低減するため、重みが可能な限り初期からスパースである「スパーストレーニング」のより困難なケースが探求されている。既存のスパーストレーニング手法は多くの場合経験的であり、密なベースラインモデルと比較して精度が低くなる傾向がある。本論文では、一般化されたアプローチとして「交替的圧縮/復元(Alternating Compressed/DeCompressed: AC/DC)トレーニング」を提案し、アルゴリズムの変種について収束性を示した上で、同様の計算リソース下で既存のスパーストレーニング手法を上回る精度を達成することを実証した。特に、高いスパース度においては、事前に精度の高い密なモデルを用いる既存手法をも凌駕する性能を示した。AC/DCの重要な特徴として、トレーニング中において密なモデルとスパースモデルを同時に学習可能であり、トレーニング終了時に高精度なスパース・密モデルペアを生成できる点が挙げられる。これは実用上極めて有用であり、リソース制約のある環境での展開において、再トレーニングを必要とせずに圧縮版モデルを活用できるためである。さらに、密モデルと圧縮モデル間の精度ギャップに関する理解を深める手がかりも得られる。本研究のコードは以下のURLで公開されている:https://github.com/IST-DASLab/ACDC