11日前
ロトリーを操作する:すべてのチケットを当選者にする
Utku Evci, Trevor Gale, Jacob Menick, Pablo Samuel Castro, Erich Elsen

要約
多くのアプリケーションでは、メモリ容量や推論時間の制約から、スパースなニューラルネットワークが求められる。これまでに、推論時にスパースなネットワークを生成するために、密なネットワークを訓練する手法が多数提案されてきたが、このようなアプローチでは、訓練可能な最大スパースモデルのサイズが、訓練可能な最大密なモデルのサイズに制限されてしまう。本論文では、訓練中においてパラメータ数と計算コストが固定されたまま、既存の密→スパース訓練手法と同等の精度を維持しつつ、スパースなニューラルネットワークを訓練する手法を提案する。本手法は、パラメータの大きさを用いてネットワークのトポロジーを訓練中に更新し、稀発的な勾配計算を活用する。我々は、このアプローチが、従来の手法と比較して、同じ精度に到達するために必要な浮動小数点演算数(FLOPs)を削減できることを示す。また、ResNet-50、Imagenet-2012におけるMobileNets、WikiText-103におけるRNNなど、多様なネットワークとデータセットにおいて、最先端のスパース訓練結果を達成することを実証した。さらに、最適化中にトポロジーを動的に変化させることで、トポロジーが固定された場合に遭遇する局所最適解を回避できる理由についての洞察を提供する。本研究で使用したコードは、github.com/google-research/rigl にて公開されている。