
초록
장면의 관점 이미지에서 객체는 임의의 크기로 나타날 수 있어, 고정된 해상도로 이미지를 처리하는 인식 시스템에 도전 과제를 제시합니다. 우리는 객체 크기에 따라 컨볼루션 네트워크 아키텍처에서 풀링 필드 크기를 적응적으로 선택하는 깊이 인식 게이팅 모듈을 제안합니다(깊이와 역비례). 이 방법은 먼 객체의 작은 세부 정보를 보존하면서 가까운 객체에는 더 큰 수용 영역을 사용할 수 있도록 합니다. 깊이 게이팅 신호는 스테레오 디스파리티 또는 단일 카메라 입력으로부터 직접 추정됩니다. 우리는 이를 반복적 컨볼루션 신경망에 통합하여 의미 분할을 수행합니다. 우리의 반복 모듈은 이전 반복에서 얻은 깊이와 의미 예측을 활용하여 분할 결과를 점진적으로 개선합니다.네 가지 유명한 대규모 RGB-D 데이터셋을 이용한 광범위한 실험을 통해, 이 접근 방식이 상당히 컴팩트한 모델로 경쟁력 있는 의미 분할 성능을 달성함을 입증하였습니다. 우리는 단일 카메라 RGB에서 작동하지만 학습 중에 깊이를 부가 정보로 사용하는 변형, 비지도 게이팅을 일반적인 주의 메커니즘으로 활용, 그리고 다중 해상도 게이팅 등을 포함하여 이 아키텍처에 대한 광범위한 분석을 수행하였습니다. 우리는 공동으로 의미 분할과 깊이를 처리하기 위한 게이티드 풀링(gated pooling) 방법이 정량적 단일 카메라 깊이 추정에서 최신 연구 결과(state-of-the-art results)를 달성함을 발견하였습니다.