NDC-Scene: 정규화된 장치 좌표 공간에서 단일 카메라 3D 의미장면 완성 향상

단일 카메라 3D 의미 장면 완성(SSC)은 단일 이미지에서 복잡한 의미와 기하학적 형태를 예측할 수 있으며 3D 입력이 필요하지 않기 때문에 최근 몇 년 동안 많은 주목을 받고 있습니다. 본 논문에서는 현재 최신 방법들에서 발견되는 몇 가지 중요한 문제점을 식별하였습니다. 이 문제점들은 투영된 레이에 대한 2D 특징의 특징 모호성(Feature Ambiguity), 3D 합성곱의 자세 모호성(Pose Ambiguity), 그리고 다양한 깊이 수준에서의 3D 합성곱에서 발생하는 계산 불균형(Computation Imbalance)을 포함합니다.이러한 문제들을 해결하기 위해, 우리는 새로운 정규화된 디바이스 좌표(Normalized Device Coordinates, NDC) 장면 완성 네트워크(NDC-Scene)를 설계하였습니다. 이 네트워크는 2D 특징 맵을 직접 세계 공간으로 확장하는 대신, 역합성곱(deconvolution) 연산을 통해 깊이 차원을 점진적으로 복원하여 정규화된 디바이스 좌표(NDC) 공간으로 확장합니다. 실험 결과, 대부분의 계산을 목표 3D 공간에서 제안된 정규화된 디바이스 좌표 공간으로 이전하는 것이 단일 카메라 SSC 작업에 유리함을 입증하였습니다.또한, 우리는 2D 및 3D 특징 맵을 동시에 업샘플링(up-sampling)하고 융합(fusion)할 수 있는 깊이 적응형 듀얼 디코더(Depth-Adaptive Dual Decoder)를 설계하여 전반적인 성능을 더욱 개선했습니다. 우리의 광범위한 실험은 제안된 방법이 실외 SemanticKITTI 및 실내 NYUv2 데이터셋 모두에서 최신 방법들을 일관되게 능가함을 확인하였습니다. 우리의 코드는 다음 주소에서 이용 가능합니다: https://github.com/Jiawei-Yao0812/NDCScene.