LSQ+:学習可能なオフセットとより良い初期化による低ビット量子化の改善

ReLUとは異なり、Swish、H-swish、Mishといった近年の活性化関数は、一般的な効率的なアーキテクチャで頻繁に使用されており、正の値と負の値の範囲が非対称となる場合がある。一般的な学習可能な量子化スキーム(例:PACT、LSQ)は、活性化値に対して符号なし量子化を仮定しており、すべての負の活性化値をゼロに量子化するため、性能の著しい低下が生じる。こうした負の活性化値に対応するために単純に符号付き量子化を採用すると、追加の符号ビットが必要となり、特に2ビット、3ビット、4ビットといった低ビット量子化ではコストが高くなる。この問題を解決するために、我々はLSQの自然な拡張であるLSQ+を提案する。LSQ+では、学習可能なスケールおよびオフセットパラメータを持つ一般的な非対称量子化スキームを導入し、負の活性化値を適切に扱えるようにする。また、勾配ベースの学習可能な量子化スキームは、最終的な学習性能において高い不安定性や分散を示す傾向があり、満足のいく性能を得るためには膨大なハイパーパラメータのチューニングが必要となる。LSQ+は、量子化パラメータに対してMSEに基づく初期化スキームを採用することで、この問題を緩和する。本研究では、この初期化手法が複数回の学習実行において最終性能の分散を著しく低減することを示す。総合的に見て、LSQ+はEfficientNetおよびMixNetにおいて最先端の性能を達成し、特にSwish活性化関数を用いたニューラルネットワークの低ビット量子化においてLSQを顕著に上回る。例えば、ImageNetデータセットにおけるEfficientNet-B0のW4A4量子化では1.8%の性能向上、W2A2量子化では最大5.6%の向上を達成した。本研究の知見によれば、我々の手法は、このようなアーキテクチャを極めて低ビット幅に量子化する初めての試みである。