2달 전

공간적 깊이: 교통 장면 이해를 위한 공간 CNN

Xingang Pan; Jianping Shi; Ping Luo; Xiaogang Wang; Xiaoou Tang
공간적 깊이: 교통 장면 이해를 위한 공간 CNN
초록

컨벌루션 신경망(CNN)은 일반적으로 층별로 컨벌루션 연산을 쌓아서 구축됩니다. CNN은 원시 픽셀로부터 의미를 추출하는 데 강한 능력을 보여주었지만, 이미지의 행과 열에 걸쳐 있는 픽셀들의 공간적 관계를 포착하는 능력은 충분히 탐구되지 않았습니다. 이러한 관계는 교통 차선과 같이 강한 형태 사전 정보(shape prior)를 가지고 있지만 약한 외관 일관성(appearance coherence)을 가진 의미 객체(semantic object)를 학습하는 데 중요합니다. 교통 차선은 종종 도로 표면에 가려져 있거나 아예 그려져 있지 않은 경우가 많습니다(그림 1(a) 참조). 본 논문에서는 전통적인 깊은 층별 컨벌루션을 피처 맵 내에서 슬라이스별 컨벌루션으로 일반화하여, 한 층 내에서 행과 열 사이의 픽셀 간 메시지 전달이 가능하도록 하는 Spatial CNN(SCNN)을 제안합니다. 이러한 SCNN은 공간적 관계가 강하지만 외관 단서가 적은 긴 연속적인 형태 구조나 큰 객체, 예를 들어 교통 차선, 기둥, 벽 등에 특히 적합합니다. 우리는 SCNN을 최근 발표된 매우 어려운 교통 차선 검출 데이터셋과 Cityscapes 데이터셋에 적용하였습니다. 결과는 SCNN이 구조 출력을 위한 공간적 관계를 학습하고 성능을 크게 향상시키는 것을 보여줍니다. 우리는 SCNN이 차선 검출 데이터셋에서 재귀 신경망(RNN) 기반의 ReNet 및 MRF+CNN(MRFNet)보다 각각 8.7%와 4.6%씩 우수한 성능을 보임을 입증하였습니다. 또한 우리의 SCNN은 TuSimple 벤치마크 차선 검출 대회에서 1위를 차지하였으며, 정확도는 96.53%였습니다.