
要約
畳み込みニューラルネットワーク(CNN)は通常、層ごとに畳み込み演算を積み重ねて構築されます。CNNは生の画素から意味論的な情報を抽出する能力を示していますが、画像の行と列にわたる画素間の空間関係を捉える能力は十分に探索されていません。これらの関係は、形状の事前情報が強いが外観の一貫性が弱いようなセマンティックオブジェクト(例えば交通線路など、しばしば遮蔽されたり道路表面に描かれていない場合がある)を学習するために重要です(図1(a)参照)。本稿では、従来の深層畳み込みを特徴マップ内のスライスごとの畳み込みに一般化し、層内で行と列にわたる画素間でのメッセージ伝達を可能にするSpatial CNN(SCNN)を提案します。このようなSCNNは、強力な空間関係を持つが外観の手がかりが少ない長く連続した形状構造や大きな物体(交通線路、柱、壁など)に対して特に適しています。我々はSCNNを新しくリリースされた非常に困難な交通線路検出データセットとCityscapesデータセットに適用しました。結果は、SCNNが構造出力のために空間関係を学習し、性能を大幅に向上させることを示しています。また、SCNNはレーン検出データセットにおいて再帰型ニューラルネットワーク(RNN)ベースのReNetおよびMRF+CNN (MRFNet) をそれぞれ8.7%および4.6%上回ることが確認されました。さらに、我々のSCNNはTuSimple Benchmark Lane Detection Challengeで1位となり、精度96.53%を達成しました。