2달 전

Lowis3D: 언어 주도형 오픈 월드 인스턴스 레벨 3D 장면 이해

Ding, Runyu ; Yang, Jihan ; Xue, Chuhui ; Zhang, Wenqing ; Bai, Song ; Qi, Xiaojuan
Lowis3D: 언어 주도형 오픈 월드 인스턴스 레벨 3D 장면 이해
초록

오픈 월드 인스턴스 레벨 장면 이해는 주석이 달린 데이터셋에 포함되지 않은 미지의 객체 카테고리를 위치 파악하고 인식하는 것을 목표로 합니다. 이 작업은 모델이 새로운 3D 객체를 위치 파악하고 그들의 의미 카테고리를 추론해야 하기 때문에 어려움을 가지고 있습니다. 최근 2D 오픈 월드 인식에서의 진전은 인터넷에서 얻은 대규모 이미지-텍스트 쌍의 존재 덕분입니다. 이러한 쌍들은 다양한 어휘 개념을 포괄하고 있습니다. 그러나 3D 시나리오에서는 3D-텍스트 쌍의 부족으로 인해 이러한 성공을 재현하기가 어렵습니다.이 문제를 해결하기 위해, 우리는 이미지-텍스트 쌍에서 광범위한 지식을 인코딩하는 사전 학습된 비전-언어(VL) 기초 모델을 활용하여 3D 장면의 다중 시점 이미지를 위한 캡션을 생성하는 방법을 제안합니다. 이를 통해 3D 형태와 의미적으로 풍부한 캡션 간의 명시적인 연관성을 설정할 수 있습니다. 또한, 객체 레벨 분류를 위한 캡션으로부터 세밀한 시각-의미 표현 학습을 강화하기 위해, 3D 점과 다중 시점 이미지 사이의 3D 기하학적 관계를 활용하는 계층적 점-캡션 연관 방법을 설계하였습니다. 이는 의미를 고려한 임베딩 학습을 가능하게 합니다.또한, 오픈 월드 환경에서 새로운 클래스의 위치 파악 문제를 해결하기 위해, 라벨이 없는 데이터를 사용하여 인스턴스 레벨 가상 감독 아래 객체 그룹화 모듈들을 훈련시키는 편향 제거된 인스턴스 위치 파악 방법을 개발하였습니다. 이는 인스턴스 그룹화의 일반화 능력을 크게 향상시키며, 따라서 새로운 객체를 정확히 위치 파악하는 능력을 향상시킵니다.우리는 실내 및 실외 장면에 걸친 세 가지 데이터셋에서 3D 의미 분할, 인스턴스 분할, 팬옵틱 분할 작업에 대해 광범위한 실험을 수행하였습니다. 우리의 방법은 의미 분할(예: 34.5%~65.3%), 인스턴스 분할(예: 21.8%~54.0%), 팬옵틱 분할(예: 14.7%~43.3%)에서 기준 방법들보다 크게 우수한 성능을 보였습니다. 코드는 공개될 예정입니다.

Lowis3D: 언어 주도형 오픈 월드 인스턴스 레벨 3D 장면 이해 | 최신 연구 논문 | HyperAI초신경