11日前

FQ-ViT:完全量化Vision Transformer向けの事後訓練量子化

Yang Lin, Tianyu Zhang, Peiqin Sun, Zheng Li, Shuchang Zhou
FQ-ViT:完全量化Vision Transformer向けの事後訓練量子化
要約

ネットワーク量子化はモデルの推論複雑性を著しく低減し、実世界の展開において広く利用されている。しかし、現存する大多数の量子化手法は主に畳み込みニューラルネットワーク(CNN)を対象として開発されており、完全量子化されたビジョントランスフォーマー(Vision Transformer)に適用した場合、著しい性能低下を引き起こす。本研究では、これらの課題の多くが、LayerNormの入力における顕著なチャネル間変動に起因することを明らかにし、完全量子化ビジョントランスフォーマーの性能低下と推論複雑性を低減するための体系的な手法である「Power-of-Two Factor(PTF)」を提案する。さらに、注意マップに顕著な非一様な分布が見られることに着目し、4ビット量子化とBitShift演算を用いて推論を簡素化しつつ、その分布を維持するための「Log-Int-Softmax(LIS)」を提案する。複数のトランスフォーマー基盤アーキテクチャおよびベンチマークにおける包括的な実験の結果、我々が提案する完全量子化ビジョントランスフォーマー(FQ-ViT)は、注意マップのビット幅をより低くしても、従来手法を上回る性能を達成した。例えば、ImageNetにおいてViT-Lを用いてトップ1精度84.89%を達成し、COCOにおいてCascade Mask R-CNN(Swin-S)を用いて50.8 mAPを実現した。本研究までに、完全量子化ビジョントランスフォーマーにおいて損失なしの精度低下(約1%)を達成した初の例である。コードは https://github.com/megvii-research/FQ-ViT にて公開されている。

FQ-ViT:完全量化Vision Transformer向けの事後訓練量子化 | 最新論文 | HyperAI超神経