2달 전
UniOcc: 시각 중심 3D 점유 예측을 기하학적 및 의미론적 렌더링으로 통합
Mingjie Pan; Li Liu; Jiaming Liu; Peixiang Huang; Longlong Wang; Shanghang Zhang; Shaoqing Xu; Zhiyi Lai; Kuiyuan Yang

초록
이 기술 보고서에서는 CVPR 2023의 nuScenes 오픈 데이터셋 챌린지에서 Vision-Centric 3D 점유 예측 트랙을 위한 우리의 솔루션인 UniOCC를 제시합니다. 기존의 점유 예측 방법은 주로 3D 점유 라벨을 사용하여 3D 볼륨 공간에서 투영된 특징을 최적화하는 데 초점을 맞추고 있습니다. 그러나 이러한 라벨의 생성 과정은 복잡하고 비용이 많이 들며(3D 의미 주석에 의존), 복셀 해상도에 제한되어 미세한 공간 의미를 제공할 수 없습니다. 이 한계를 극복하기 위해, 우리는 공간 기하학적 제약 조건을 명시적으로 부과하고 볼륨 레이 렌더링을 통해 미세한 의미 주석을 보완하는 새로운 통합 점유(UniOcc) 예측 방법을 제안합니다. 우리의 방법은 모델 성능을 크게 향상시키며, 인간 주석 비용을 줄이는 데 유망한 잠재력을 보여줍니다. 3D 점유 주석 작업의 어려움을 고려하여, 우리는 더 나아가 비라벨 데이터를 사용하여 예측 정확도를 향상시키기 위한 깊이 인식 교사-학생(DTS) 프레임워크를 도입하였습니다. 우리의 솔루션은 단일 모델로 공식 리더보드에서 51.27%의 mIoU를 달성하며, 이 챌린지에서 3위를 차지했습니다.