17일 전

오미디렉셔널 세그멘테이션을 위한 오미-레인지 컨텍스트 캡처

Kailun Yang, Jiaming Zhang, Simon Reiß, Xinxin Hu, Rainer Stiefelhagen
오미디렉셔널 세그멘테이션을 위한 오미-레인지 컨텍스트 캡처
초록

컨볼루셔널 네트워크(ConvNets)는 의미론적 세그멘테이션에서 뛰어난 성능을 발휘하며 자율주행 시스템의 인지(perception) 기능에 핵심적인 구성 요소로 자리 잡았다. 도로 환경을 포괄적인 시야로 제공할 수 있는 옴니디렉셔널 카메라(omnidirectional camera)는 이러한 시스템에 이상적인 솔루션으로 부상하고 있다. 그러나 도시 환경을 해석하기 위한 대부분의 세그멘테이션 모델은 일반적인 좁은 시야(Field of View, FoV) 이미지 위에서 작동한다. 이러한 모델을 설계된 도메인에서 360도 시야 인식으로 전이할 경우, 성능은 급격히 저하되며, 기존의 테스트 벤치마크에서 mIoU 기준으로 절대적으로 30.0% 이상 감소하는 경우도 있다. 시각 도메인 간의 FoV 및 구조적 분포 차이를 극복하기 위해, 우리는 옴니디렉셔널 이미지 내에 내재된 장거리 의존성(long-range dependencies)을 직접 포착할 수 있는 효율적인 동시 주의 네트워크(Efficient Concurrent Attention Networks, ECANets)를 제안한다. 학습된 주의 기반의 맥락적 사전 지식(contextual priors)이 360도 이미지를 아우를 수 있도록 하면서, 다중 소스 및 옴니-지도 학습(omni-supervised learning)을 활용해 모델 학습을 강화하였다. 이는 다양한 데이터셋에서 유래한 밀도 높은 라벨링 데이터와 라벨이 없는 데이터를 모두 효과적으로 활용하는 데 기여한다. 원형 이미지 세그멘테이션 분야의 발전을 촉진하기 위해, 전 세계 다양한 장면을 포괄적으로 캡처하도록 설계된 '와일드 팬노라믹 의미론적 세그멘테이션(Wild PAnoramic Semantic Segmentation, WildPASS)' 데이터셋을 제안하고, 이를 기반으로 모델을 광범위하게 평가하였다. 본 연구에서 제안하는 새로운 모델, 학습 전략 및 다중 소스 예측 융합 기법은 공개된 PASS 벤치마크에서 60.2%의 mIoU, 그리고 새로운 WildPASS 벤치마크에서 69.0%의 mIoU를 달성하며, 기존 최고 성능을 초월하는 새로운 최첨단 성과를 이룩하였다.