3달 전

MV-DETR: 다중 시점 DEtecton TRansformers를 이용한 다중 모달 내부 물체 탐지

Zichao Dong, Yilin Zhang, Xufeng Huang, Hang Ji, Zhan Shi, Xin Zhan, Junbo Chen
MV-DETR: 다중 시점 DEtecton TRansformers를 이용한 다중 모달 내부 물체 탐지
초록

우리는 효과적이고 효율적인 트랜스포머 기반 검출 방법을 위한 새로운 MV-DETR 파이프라인을 제안한다. 입력으로 RGBD 데이터를 제공받았을 때, RGB 데이터에 대해 매우 강력한 사전 훈련 가중치가 존재하는 반면, 깊이 정보와 관련된 데이터에 대해서는 상대적으로 효과적인 방법이 부족함을 관찰하였다. 우선적으로, 기하학적 정보와 질감 정보 모두 핵심적인 역할을 하며, 별도로 인코딩될 수 있음을 주장한다. 둘째로, 3차원 공간에서 기하학적 특징에 비해 시각적 질감 특징을 추출하는 것이 상대적으로 어려움을 발견하였다. 불행하게도, 수천 개의 데이터로 구성된 단일 RGBD 데이터셋만으로는 시각적 질감 특징 추출을 위한 구분 능력을 갖춘 필터를 훈련하기에는 부족하다. 마지막으로, 시각적 질감 인코더, 기하학 인코더, 그리고 VG 연결 모듈로 구성된 경량화된 VG 모듈을 설계하였다. 기존 최고 수준의 기법인 V-DETR와 비교했을 때, 사전 훈련된 시각 인코더의 성능 향상 효과를 확인할 수 있었다. ScanNetV2 데이터셋에서 실시한 광범위한 실험 결과를 통해 본 방법의 효과성을 입증하였다. 특히 주목할 점은, 본 방법이 ScanNetV2 벤치마크에서 78%의 AP를 달성하여 새로운 최고 성능(SOTA)을 기록했다는 점이다.