
要約
効果的かつ効率的な意味論的画像セグメンテーションの重要な課題について考察します。特に、強力な意味論的セグメンテーションアーキテクチャであるRefineNetを、リアルタイム性能が求められる高解像度入力にも適したよりコンパクトな形に改良しました。この目的のために、元の設定における計算負荷の高いブロックを特定し、パラメータ数と浮動小数点演算量を削減することを目指して2つの変更を提案しました。その結果、モデルのサイズは2倍以上小さくなりましたが、性能はほぼ維持されています。最も高速なモデルでは、一般的なGPUカード上で512x512の入力に対してFPS(フレームレート)が20から55に大幅に向上し、PASCAL VOCのテストセットで81.1%の平均IoU(Intersection over Union)性能を達成しています。一方で、最も遅いモデルでもFPSが17から32に向上し、同じデータセットで82.7%の平均IoUを示しています。また、軽量分類ネットワークとの組み合わせも容易であることを示しており、3.3M(ミリオン)のパラメータ数と9.3B(ビリオン)の浮動小数点演算量を持つモデルを使用することで、PASCAL VOCで79.2%の平均IoUを達成しています。