11일 전

업토탑 네트워크: 3D 세밀한 장면 완성 위한 다중 스케일 컨텍스트 융합

{Hongbo Zhang, Feng Wen, Wanlong Li, Yong liu, Chujuan Zhang, Tianxin Huang, Xuemeng Yang, Hao Zou}
초록

자율주행 및 로봇 시스템에 있어 효율적인 3차원 장면 인식 알고리즘은 핵심적인 구성 요소이다. 본 논문에서는 볼륨형 점유 상태와 객체의 의미적 레이블을 동시에 추정하는 작업인 의미론적 장면 완성(semantic scene completion)에 초점을 맞춘다. 실제 환경 데이터는 희박하고 부분적으로 가려져 있어, 이는 매우 도전적인 과제이다. 우리는 볼륨 그리드(voxel grid)를 대상으로 인코더-디코더 아키텍처를 채택한 새로운 프레임워크인 '업투다운 네트워크(Up-to-Down network, UDNet)'를 제안한다. 제안된 새로운 업투다운 블록은 다중 스케일의 맥락 정보를 효과적으로 통합하여 레이블의 일관성을 향상시키며, 어트로스 공간 피라미드 풀링(atrious spatial pyramid pooling) 모듈을 활용해 수용 영역을 확장하면서도 세밀한 기하학적 정보를 유지한다. 또한 제안된 다중 스케일 융합 메커니즘은 전역 배경 정보를 효율적으로 통합하여 의미론적 장면 완성 정확도를 높인다. 더 나아가, 다양한 작업 요구에 부응하기 위해 UDNet은 다중 해상도 의미론적 완성도 수행할 수 있으며, 더 빠르지만 상대적으로 낮은 해상도의 완성 결과를 제공한다. SemanticKITTI 의미론적 장면 완성 벤치마크에서 실시한 상세한 실험 결과, 본 논문에서 제안하는 프레임워크는 단지 볼륨 그리드만을 입력으로 사용함에도 불구하고, 기존 최고 성능 기법들을 크게 앞지르며 실시간 추론 속도를 달성함을 입증하였다.

업토탑 네트워크: 3D 세밀한 장면 완성 위한 다중 스케일 컨텍스트 융합 | 최신 연구 논문 | HyperAI초신경