16日前

リアルタイムセマンティックセグメンテーションのための拡張畳み込みの再考

Roland Gao

要約

セマンティックセグメンテーション用モデルを設計する際、視野（field-of-view）は重要な指標となる。大規模な視野を獲得するため、従来のアプローチでは通常、平均プーリングやストライド2の畳み込みを用いて解像度を急速に低減する手法が採用されてきた。本研究では、バックボーン全体に大きな畳み込み倍率（dilation rate）を持つ拡張畳み込み（dilated convolutions）を用いるという異なるアプローチを提案する。これにより、畳み込み倍率を調整することでバックボーンの視野を柔軟に制御可能となり、既存手法と競合可能な性能を達成できることを示した。拡張畳み込みを効果的に活用するため、畳み込み重み間にギャップが生じないよう、畳み込み倍率に簡単な上界を導入することを示した。さらに、局所的な詳細情報を保持するために、異なる畳み込み倍率を持つ2つの並列な$3\times3$畳み込みを用いるSE-ResNeXtを意識したブロック構造を設計した。各ブロックに対して手動で畳み込み倍率を調整するのは困難であるため、勾配降下法を用いて畳み込み倍率を最適化する微分可能なニューラルアーキテクチャ探索（differentiable neural architecture search）手法も提案した。また、従来の代替手法よりも局所情報をより効果的に復元できる軽量なデコーダーを提案した。本手法の有効性を検証するため、実時間処理を想定したCityscapesおよびCamVidデータセット上で評価を行った。混合精度（mixed precision）を用いたT4 GPU上で、RegSegはCityscapesテストセットで37FPSの速度で78.3 mIOUを達成し、CamVidテストセットでは112FPSで80.9 mIOUを実現した。これらの結果は、ImageNetでの事前学習を一切行わずに得られたものである。