4달 전

MonoLSS: 단일 카메라 3D 검출을 위한 학습 가능한 샘플 선택

Li, Zhenjia ; Jia, Jinrang ; Shi, Yifeng
MonoLSS: 단일 카메라 3D 검출을 위한 학습 가능한 샘플 선택
초록

자율주행 분야에서 단일 카메라 3D 감지는 하나의 RGB 이미지에서 객체의 3D 속성(깊이, 크기, 방향)을 추정하는 중요한 작업입니다. 이전 연구에서는 휴리스틱 방식으로 특징을 사용하여 3D 속성을 학습하였으나, 부적절한 특징이 부정적인 영향을 미칠 수 있다는 점을 고려하지 않았습니다. 본 논문에서는 적합한 샘플만 학습하여 3D 속성을 회귀하는 샘플 선택 방법을 소개합니다. 샘플을 적응적으로 선택하기 위해, Gumbel-Softmax와 상대적 거리 기반 샘플 분할기를 기반으로 하는 학습 가능한 샘플 선택(Learnable Sample Selection, LSS) 모듈을 제안합니다. LSS 모듈은 웜업 전략 하에서 작동하여 학습 안정성을 개선시킵니다. 또한, 3D 속성 샘플 선택에 특화된 LSS 모듈은 객체 레벨 특징에 의존하므로, 우리는 이미지 원리에 부합하면서도 애매함을 유발하지 않는 3D 속성 샘플을 풍부하게 만드는 데이터 증강 방법인 MixUp3D를 추가로 개발하였습니다. 두 가지 직교적인 방법인 LSS 모듈과 MixUp3D는 독립적으로 또는 함께 사용될 수 있습니다. 충분한 실험 결과를 통해 이들의 병용 사용이 시너지 효과를 가져와 각각의 적용보다 더 큰 개선 효과를 나타냄을 확인하였습니다. LSS 모듈과 MixUp3D를 활용하여 추가 데이터 없이도 제안된 방법인 MonoLSS는 KITTI 3D 객체 감지 벤치마크에서 차량(Car), 자전거 타는 사람(Cyclist), 보행자(Pedestrian) 세 카테고리 모두에서 1위를 차지하였으며, Waymo 데이터셋과 KITTI-nuScenes 크로스 데이터셋 평가에서도 경쟁력 있는 성능을 보였습니다. 코드는 부록 자료에 포함되어 있으며, 관련 학술 및 산업 연구를 지원하기 위해 공개될 예정입니다.