2달 전
DEVIANT: 단일 카메라 기반 3D 객체 검출을 위한 깊이 불변성 네트워크
Kumar, Abhinav ; Brazil, Garrick ; Corona, Enrique ; Parchami, Armin ; Liu, Xiaoming

초록
현대의 신경망은 임의의 2D 변환에 동변성을 가지는 합성곱 등의 빌딩 블록을 사용합니다. 그러나 이러한 기본 블록은 프로젝티브 다양체에서 임의의 3D 변환에 동변성을 갖지 않습니다. 그럼에도 불구하고, 모든 단일 카메라 3D 감지는 3D 좌표를 얻기 위해 이러한 기본 블록을 사용하며, 이는 기본 블록이 설계되지 않은 작업입니다. 본 논문은 프로젝티브 다양체에서 임의의 3D 변환에 동변성을 가지는 합성곱으로 나아가는 첫걸음을 내딛습니다. 단일 카메라 감지에서 깊이(depth) 추정이 가장 어려운 문제임을 고려하여, 본 논문은 기존 스케일 동변성 가이드블록(scale equivariant steerable blocks)을 사용하여 깊이 동변성 네트워크(DEVIANT, Depth EquiVarIAnt NeTwork)를 제안합니다. 결과적으로, DEVIANT는 프로젝티브 다양체에서 깊이 변환에 동변성을 가지며, 기본 네트워크와 달리 이를 만족합니다. 추가적인 깊이 동변성이 DEVIANT에게 일관된 깊이 추정을 학습하도록 강제하기 때문에, DEVIANT는 이미지만 사용하는 범주에서 KITTI 및 Waymo 데이터셋에서 최고 수준의 단일 카메라 3D 감지 결과를 달성하며, 추가 정보를 사용하는 방법들과도 경쟁력을 유지합니다. 또한, DEVIANT는 교차 데이터셋 평가에서도 기본 네트워크보다 우수한 성능을 보입니다. 코드 및 모델은 https://github.com/abhi1kumar/DEVIANT 에서 확인할 수 있습니다.