
要約
今回、我々は、再訓練を一切行わずに、一度の処理で大規模な生成型事前学習トランスフォーマー(GPT)ファミリーモデルを最低50%のスパース性まで削減可能であることを初めて示した。これは、大規模なGPTファミリーモデルにおいて効率的かつ高精度に動作するよう特別に設計された新しい圧縮手法「SparseGPT」によって実現された。SparseGPTを用いることで、現在入手可能な最大規模のオープンソースモデルであるOPT-175BおよびBLOOM-176Bに対して、4.5時間以内に処理を完了でき、非構造化スパース性60%まで到達しつつ、困惑度(perplexity)の増加は無視できるほどに抑えることができる。特に注目すべきは、これらのモデルにおいて推論時に1000億以上の重みを無視してもよい状態に達したことである。SparseGPTは、半構造化パターン(2:4および4:8)にも拡張可能であり、重みの量子化手法とも互換性を有する。コードは以下のURLで公開されている:https://github.com/IST-DASLab/sparsegpt。