IFQ-Net:埋め込み視覚向け統合固定小数点量子化ネットワーク

エッジデバイス上におけるディープモデルの展開は、深層学習に基づくネットワークの著しい成功以来、長年にわたり課題とされてきた。データを低ビットの固定小数点(fixed-point)で表現する固定小数点ネットワークは、メモリ使用量を顕著に削減できるため、一般的に好まれている。しかし、現在の固定小数点ネットワークであっても、例えば8ビット程度の低ビットを採用しているものの、エッジデバイスにおいては依然として十分なメモリ節約には至っていない。一方、XNOR-NetやHWGQNetなどの量子化ディープネットワークは、データを1ビットまたは2ビットに量子化することで、より顕著なメモリ削減を実現しているが、依然として多数の浮動小数点データを含んでいる。本論文では、量子化ネットワーク内の浮動小数点データを固定小数点に変換することで、エッジビジョンタスク向けの固定小数点ネットワークを提案する。さらに、変換に伴うデータ損失を補うために、複数層(例えば畳み込み層、バッチ正規化層、量子化層など)にまたがる浮動小数点演算を統合的に処理し、それを固定小数点に変換する手法を提案する。このような統合的変換によって得られる固定小数点ネットワークを「統合型固定小数点量子化ネットワーク(Integrated Fixed-point Quantization Networks: IFQ-Net)」と命名する。実験により、IFQ-NetはImageNetにおける精度と同等の性能を維持しつつ、モデルサイズを2.16倍、実行時特徴マップメモリを18倍削減できることを示した。さらに、YOLOv2を基盤として、IFQ-Tinier-YOLOという顔検出器を設計した。これはTiny-YOLOに比べてモデルサイズが256倍小さく(246kB)、完全に固定小数点形式のネットワークである。Face Detection Data Set and Benchmark(FDDB)における検出率およびWider Faceデータセットにおける小顔の検出結果について、定量的・定性的な評価を通じて、本手法の有望な性能を示した。