RGB-D 주요 객체 검출 재고찰: 모델, 데이터 세트 및 대규모 벤치마크

최근 몇 년 동안 RGB-D 정보를 사용한 주요 객체 검출에 대해 많이 연구되어 왔습니다. 그러나 실제 인간 활동 장면에서 RGB-D를 활용한 주요 객체 검출 모델링에 대한 연구는 상대적으로 적었습니다. 본 연구에서는 이러한 간극을 메우기 위해 다음과 같은 기여를 하였습니다.(1) 다양한 시점, 자세, 가림, 조명 및 배경을 포함하는 실제 세계의 다양한 장면을 포괄하는 약 1천 개의 고해상도 이미지로 구성된 새로운 SIP (주요 인물) 데이터셋을 체계적으로 수집하였습니다.(2) 대규모로 (그리고 지금까지 가장 포괄적인) 현대적 방법들을 비교하는 벤치마크를 수행하였습니다. 이는 해당 분야에서 오랫동안 부족했던 부분이며, 향후 연구의 기준으로 활용될 수 있습니다. 우리는 32개의 인기 있는 모델을 체계적으로 요약하고, 32개 모델 중 18개 부분을 총 9만 7천 개의 이미지를 포함하는 일곱 개의 데이터셋에서 평가하였습니다.(3) 저품질 깊이 맵 필터링과 크로스-모달 특성 학습을 각각 수행하는 깊이 정화 유닛 (Depth Depurator Unit, DDU)과 세 가지 스트림 특성 학습 모듈 (Three-Stream Feature Learning Module, FLM)로 구성된 단순하면서도 일반적인 아키텍처인 Deep Depth-Depurator Network (D3Net)를 제안하였습니다. 이러한 구성 요소들은 중첩 구조를 형성하며 공동 학습을 위해 세심하게 설계되었습니다. D3Net은 고려된 모든 다섯 가지 지표에서 이전 경쟁자들보다 우수한 성능을 보여주어 이 분야의 연구 발전을 위한 강력한 모델로서 역할합니다. 또한, D3Net이 실제 장면에서 주요 객체 마스크를 효율적으로 추출하여 배경 변경 응용 프로그램을 효과적으로 지원할 수 있으며, 단일 GPU에서 초당 65프레임으로 처리 가능함을 입증하였습니다.모든 주목도 맵, 새로운 SIP 데이터셋, D3Net 모델 및 평가 도구는 공개적으로 이용 가능하며, 관련 자료는 https://github.com/DengPingFan/D3NetBenchmark 에서 확인할 수 있습니다.