2달 전

스트리트 장면에서의 의미 분할을 위한 전체 해상도 잔차 네트워크

Tobias Pohlen; Alexander Hermans; Markus Mathias; Bastian Leibe
스트리트 장면에서의 의미 분할을 위한 전체 해상도 잔차 네트워크
초록

시맨틱 이미지 분할은 주변 환경에 대한 정확한 이해가 항법 및 행동 계획에 필수적인 현대 자율 주행 시스템의 핵심 구성 요소입니다. 현재 시맨틱 이미지 분할에서 가장 앞선 접근 방식은 초기에는 전체 이미지를 분류하기 위해 개발된 사전 훈련된 네트워크에 의존하고 있습니다. 이러한 네트워크는 뛰어난 인식 성능(즉, 무엇이 보이는가?)을 보이지만, 위치 결정 정확도(즉, 무언가가 정확히 어디에 있는가?)는 부족합니다. 따라서 전체 이미지 해상도에서 픽셀 단위로 정확한 세그멘테이션 마스크를 얻기 위해 추가적인 처리 단계를 수행해야 합니다. 이 문제를 완화하기 위해 우리는 강력한 위치 결정 및 인식 성능을 보이는 새로운 ResNet 유사 아키텍처를 제안합니다. 우리의 네트워크 내에서 두 개의 처리 스트림을 사용하여 다중 스케일 컨텍스트와 픽셀 수준의 정확성을 결합합니다: 하나의 스트림은 전체 이미지 해상도의 정보를 유지하여 세그먼트 경계를 정밀하게 따르도록 합니다. 다른 스트림은 인식을 위한 견고한 특징을 얻기 위해 풀링 연산의 시퀀스를 거칩니다. 두 스트림은 잔차(residuals)를 사용하여 전체 이미지 해상도에서 결합됩니다. 추가적인 처리 단계 없이 사전 훈련 없이도, 우리의 접근 방식은 Cityscapes 데이터셋에서 71.8%의 교집합-대-합(IOU) 점수를 달성합니다.