R2 Loss:モデル圧縮および量子化のための範囲制限損失

モデルの量子化および圧縮は、推論時の計算リソース消費を削減するために広く用いられる技術である。最先端の研究では、4ビットや8ビットといった較高ビット幅において合理的な精度が達成されているが、さらなる量子化・圧縮、特に1ビットや2ビットへの低ビット化は依然として大きな課題である。この課題を克服するため、本研究では事前学習済みモデルの重みにおける外れ値(outliers)に注目する。これらの外れ値は、低ビット量子化および圧縮の効果を妨げる要因となる。そこで本研究では、事前学習段階において重みから外れ値を除去することで、低ビット量子化・圧縮に適したモデルを構築するための「範囲制限損失(Range Restriction Loss, R2-Loss)」を提案する。重みの値域を効果的に制限することで、全体の分布を緊密な形状に整えることにより、高精度な量子化ビット分解能を確保する。その結果、モデル圧縮および量子化技術が限られた数値表現能力をより効果的に活用できるようになる。本研究では、全精度モデルの学習時に補助損失として用いることができる3種類のR2-Lossを導入する:L∞ノルムに基づくR2-Loss、その拡張であるマージンR2-Loss、および新しく提案するSoft-Min-Max R2-Lossである。これらのR2-Lossは用途に応じて適切に選択可能であり、L∞およびマージンR2-Lossは対称量子化において有効である一方、Soft-Min-Max R2-Lossはモデル圧縮において優れた性能を発揮する。実験結果によれば、R2-Lossは最先端の事後量子化(Post-Training Quantization, PTQ)、量子化感知学習(Quantization-Aware Training, QAT)、およびモデル圧縮技術において、低ビット量子化の精度を向上させた。具体的には、MobileNet-V2の2ビット重み・8ビット活性化のPTQでは50.66%から59.49%へ、MobileNet-V1の2ビット重み・活性化のQATでは55.96%から59.05%へ、ResNet18の1ビット重み圧縮では45.54%から52.58%へと精度が向上した。