7日前

Spartan：正則化輸送を用いた微分可能なスパース性

Kai Sheng Tai, Taipeng Tian, Ser-Nam Lim

要約

本稿では、事前に定められたスパース度を実現するためのスパースニューラルネットワークモデルの学習手法であるSpartanを提案する。Spartanは以下の2つの技術の組み合わせに基づいている：(1) 正則化された最適輸送問題を用いた低絶対値パラメータに対するソフトtop-kマスキング、および(2) 前方伝搬においてハードスパース化を施した、双対平均に基づくパラメータ更新。この手法は、探索と活用のトレードオフを実現する：学習初期段階では、さまざまなスパース構造の探索が可能となり、学習の進行に伴いソフトtop-k近似が徐々に鋭利化されることで、固定されたスパースマスクに対するパラメータ最適化へと重心が移行する。Spartanは、非構造的スパース性およびブロック構造的スパース性を含む多様なスパース割当方針に柔軟に対応可能であり、各パラメータのコストを線形モデルで表現した一般化されたコスト感受性スパース割当も可能である。ImageNet-1K分類タスクにおいて、Spartanは、完全に密集した学習と比較してトップ-1精度の低下が1%未満となる95%スパースなResNet-50モデルおよび90%ブロックスパースなViT-B/16モデルを実現した。