2ヶ月前

街路シーンのセマンティックセグメンテーション向けフル解像度残差ネットワーク

Tobias Pohlen; Alexander Hermans; Markus Mathias; Bastian Leibe
街路シーンのセマンティックセグメンテーション向けフル解像度残差ネットワーク
要約

セマンティック画像セグメンテーションは、周囲のシーンを正確に理解することがナビゲーションや行動計画にとって重要であるため、現代の自動運転システムにおいて不可欠な要素です。現在の最先端のセマンティック画像セグメンテーション手法は、当初画像全体の分類のために開発された事前学習済みネットワークに依存しています。これらのネットワークは優れた認識性能(つまり、何が見えるか?)を示しますが、位置特定の精度(つまり、何かが正確にどこにあるか?)には欠けています。したがって、フル解像度のピクセル単位で正確なセグメンテーションマスクを得るためには、追加の処理ステップが必要となります。この問題を緩和するため、我々は強力な位置特定と認識性能を持つ新しいResNetのようなアーキテクチャを提案します。我々のネットワーク内では、マルチスケールコンテキストとピクセルレベルの精度を組み合わせるために2つの処理ストリームを使用します。1つのストリームはフル解像度での情報を運び、セグメント境界への精密な適合を可能にします。もう1つのストリームはプーリング操作の一連の過程を通じて認識に適した堅牢な特徴量を得ます。2つのストリームは残差を使用してフル解像度で結合されます。追加の処理ステップなしでかつ事前学習なしで、我々の手法はCityscapesデータセット上で71.8%のIntersection over Union (IoU) スコアを達成しました。