VSRD: 인스턴스 인식 볼루메트릭 실루엣 렌더링을 이용한 약간의 감독 하에 3D 객체 검출

단일 카메라 3D 객체 검출은 단일 이미지에서 깊이를 추정하는 본질적으로 불안정한 특성 때문에 3D 장면 이해에 큰 도전을 제시합니다. 기존 방법들은 주로 비싸고 노동 집약적인 LiDAR 포인트 클라우드 주석을 통해 얻은 풍부한 3D 라벨을 사용하여 지도 학습에 크게 의존합니다. 이 문제를 해결하기 위해, 우리는 VSRD (Volumetric Silhouette Rendering for Detection, 볼루메트릭 실루엣 렌더링을 이용한 검출)라는 새로운 약간 지도된 3D 객체 검출 프레임워크를 제안합니다. 이 프레임워크는 어떠한 3D 지도도 없이 오직 약한 2D 지도만으로 3D 객체 검출기를 훈련시키는 것을 목표로 합니다. VSRD는 다중 시점 3D 자동 라벨링과 이를 통해 생성된 가짜 라벨을 사용하여 단일 카메라 3D 객체 검출기의 후속 훈련으로 구성됩니다.자동 라벨링 단계에서는 각 인스턴스의 표면을 부호화된 거리 필드(Signed Distance Field, SDF)로 표현하고, 제안된 인스턴스 인식 볼루메트릭 실루엣 렌더링을 통해 그 실루엣을 인스턴스 마스크로 렌더링합니다. 렌더링을 통해 3D 바운딩 박스를 직접 최적화하기 위해, 각 인스턴스의 SDF를 큐브와 잔여 거리 필드(Residual Distance Field, RDF)로 분해합니다. 여기서 RDF는 큐브로부터의 잔여 부분을 나타냅니다. 이 메커니즘은 렌더링된 인스턴스 마스크와 실제 인스턴스 마스크를 비교함으로써 3D 바운딩 박스를 엔드투엔드 방식으로 최적화할 수 있게 합니다. 최적화된 3D 바운딩 박스들은 3D 객체 검출에 효과적인 훈련 데이터가 됩니다.우리는 KITTI-360 데이터셋에서 광범위한 실험을 수행하여 우리의 방법이 기존의 약간 지도된 3D 객체 검출 방법들을 능가함을 입증했습니다. 코드는 https://github.com/skmhrk1209/VSRD에서 제공됩니다.