
要約
SegBlocksは、画像領域の複雑度に応じて処理解像度を動的に調整することで、従来のニューラルネットワークの計算コストを低減する手法である。本手法は画像をブロックに分割し、複雑度が低いブロックをダウンサンプリングすることで、演算回数およびメモリ消費量を削減する。複雑な領域を識別するための軽量なポリシーネットワークは強化学習を用いて学習される。さらに、CUDAで実装された複数のモジュールを導入し、画像をブロック単位で効率的に処理する。特に重要なのは、従来の手法が抱えるブロック境界における特徴量の不連続性を回避しつつ、メモリ消費を制御する新たなBlockPadモジュールの導入である。Cityscapes、CamVid、Mapillary Vistasのセマンティックセグメンテーションデータセットを用いた実験結果から、静的なベースラインと比較して、動的処理により同等の複雑度下でより優れた精度と計算量のトレードオフが達成されることを示した。例えば、SwiftNet-RN18に対して、浮動小数点演算数を60%削減し、推論速度を50%向上させつつ、CityscapesにおけるmIoU精度はわずか0.3%の低下にとどめた。