2달 전

OpenScene: 오픈 어휘를 이용한 3D 장면 이해

Peng, Songyou ; Genova, Kyle ; Jiang, Chiyu Max ; Tagliasacchi, Andrea ; Pollefeys, Marc ; Funkhouser, Thomas
OpenScene: 오픈 어휘를 이용한 3D 장면 이해
초록

전통적인 3D 장면 이해 접근 방식은 단일 작업을 감독 아래에서 수행하기 위해 라벨이 부착된 3D 데이터셋에 의존합니다. 본 연구에서는 OpenScene이라는 대안적 접근 방식을 제안합니다. 이 방법은 모델이 텍스트와 이미지 픽셀과 함께 CLIP 특성 공간에 공유되어 임베딩되는 3D 장면 포인트의 밀도 특성을 예측하는 것입니다. 이러한 제로샷(zero-shot) 접근 방식은 작업에 독립적인 훈련과 개방형 어휘 쿼리를 가능하게 합니다. 예를 들어, 최신의 제로샷 3D 의미 분할을 수행하기 위해서는 먼저 각 3D 포인트에 대한 CLIP 특성을 추론한 후, 임의의 클래스 라벨 임베딩과의 유사성을 기반으로 분류합니다. 더욱 흥미롭게도, 이 방법은 이전에 시도되지 않았던 다양한 개방형 어휘 장면 이해 응용 프로그램들을 가능하게 합니다. 예를 들어, 사용자는 임의의 텍스트 쿼리를 입력하면 해당 쿼리와 일치하는 장면 부분을 나타내는 히트맵(heat map)을 볼 수 있습니다. 본 접근 방식은 복잡한 3D 장면에서 객체, 재료, 용도(affordances), 활동 및 방 타입을 식별하는 데 효과적이며, 모든 이는 라벨이 부착된 3D 데이터 없이 단일 모델로 훈련됩니다.

OpenScene: 오픈 어휘를 이용한 3D 장면 이해 | 최신 연구 논문 | HyperAI초신경