
要約
自動運転における街路シーン理解の基本的なタスクである意味的画像セグメンテーションでは、高解像度画像の各ピクセルが一連の意味的ラベルに分類される。他のシナリオとは異なり、自動運転シーンにおける物体は非常に大きなスケール変化を示すため、高レベルな特徴表現において、マルチスケール情報が正確に符号化されることが大きな課題となる。この問題を解決するために、空間解像度を損なわずにより広い受容 field を持つ特徴を生成するため、アトロス畳み込み(atrous convolution)が導入された。アトロス畳み込みを基盤として、異なる拡張率(dilation rate)を用いた複数のアトロス畳み込み特徴を連結するアトロス空間的ピラミッドプーリング(Atrous Spatial Pyramid Pooling: ASPP)が提案された。ASPPはマルチスケール特徴の生成が可能であるものの、自動運転シーンにおいてはスケール軸方向の特徴解像度が十分に密ではないと主張する。この問題に対処するため、本研究では密結合型アトロス空間的ピラミッドプーリング(Densely connected Atrous Spatial Pyramid Pooling: DenseASPP)を提案する。DenseASPPは複数のアトロス畳み込み層を密結合(dense connection)により接続することで、スケール範囲を広くカバーするだけでなく、その範囲をより密に表現するマルチスケール特徴を生成する。また、モデルサイズの大幅な増加を伴わず、効率的な特徴表現が可能となる。本手法は街路シーンのベンチマークであるCityscapesデータセット上で評価され、最先端の性能を達成した。