2달 전

Open-YOLO 3D: 빠르고 정확한 오픈 보카브러리 3D 인스턴스 분할을 향하여

Boudjoghra, Mohamed El Amine ; Dai, Angela ; Lahoud, Jean ; Cholakkal, Hisham ; Anwer, Rao Muhammad ; Khan, Salman ; Khan, Fahad Shahbaz
Open-YOLO 3D: 빠르고 정확한 오픈 보카브러리 3D 인스턴스 분할을 향하여
초록

최근의 오픈 보카블러리(open-vocabulary) 3D 인스턴스 분할 연구들은 강력한 잠재력을 보여주고 있지만, 느린 추론 속도와 높은 계산 요구량을 대가로 하고 있습니다. 이러한 높은 계산 비용은 주로 3D 클립 특성에 대한 과도한 의존 때문으로, 이는 Segment Anything (SAM) 및 CLIP과 같은 계산적으로 비용이 많이 드는 2D 기초 모델이 다중 시점에서 3D로 집계하기 위해 필요합니다. 결과적으로, 이는 빠르고 정확한 예측이 필요한 많은 실제 응용 분야에서의 적용을 방해하고 있습니다. 이를 해결하기 위해, 우리는 다중 시점 RGB 이미지에서 2D 객체 검출만을 효과적으로 활용하여 오픈 보카블러리 3D 인스턴스 분할을 수행하는 빠르면서도 정확한 접근 방식인 Open-YOLO 3D를 제안합니다.우리는 이 작업을 장면 내 객체에 대한 클래스 무관(class-agnostic) 3D 마스크를 생성하고 이를 텍스트 프롬프트와 연결함으로써 수행합니다. 클래스 무관 3D 포인트 클라우드 인스턴스의 투영이 이미 인스턴스 정보를 포함하고 있다는 점을 관찰하였습니다. 따라서 SAM 사용은 불필요하게 추론 시간을 증가시키는 중복성을 초래할 수 있습니다. 우리는 경험적으로 2D 객체 검출기 사용 시 텍스트 프롬프트와 3D 마스크의 매칭 성능이 더 빠르게 이루어질 수 있음을 발견하였습니다.우리는 ScanNet200 및 Replica 두 벤치마크에서 Open-YOLO 3D를 검증하였으며, 두 가지 시나리오 하에 실험을 진행하였습니다: (i) 지상 진실(ground truth) 마스크가 있는 경우, 여기서 주어진 객체 제안(proposals)에 대한 라벨이 필요하며, (ii) 3D 제안 네트워크로부터 생성된 클래스 무관(class-agnostic) 3D 제안(proposals)이 있는 경우입니다. 우리의 Open-YOLO 3D는 두 데이터셋 모두에서 최신 연구 방법보다 최대 약 16배의 속도 향상을 얻으면서 최고 수준의 성능을 달성하였습니다. ScanNet200 검증(val.) 세트에서는 장면당 약 22초 동안 mAP(mean average precision)가 24.7%를 기록하였습니다. 코드와 모델은 github.com/aminebdj/OpenYOLO3D에서 제공됩니다.

Open-YOLO 3D: 빠르고 정확한 오픈 보카브러리 3D 인스턴스 분할을 향하여 | 최신 연구 논문 | HyperAI초신경