2달 전

PLA: 언어 주도의 개방형 어휘 3D 장면 이해

Ding, Runyu ; Yang, Jihan ; Xue, Chuhui ; Zhang, Wenqing ; Bai, Song ; Qi, Xiaojuan
PLA: 언어 주도의 개방형 어휘 3D 장면 이해
초록

오픈 보카블러리 장면 이해는 주석화된 라벨 공간을 벗어난 미확인 카테고리를 위치 추정하고 인식하는 것을 목표로 합니다. 최근 2D 오픈 보카블러리 인식의 혁신은 인터넷 규모의 이미지-텍스트 쌍 데이터와 풍부한 보카블러리 개념에 의해 크게 이끌어졌습니다. 그러나 이러한 성공은 대규모 3D-텍스트 쌍 데이터의 접근 어려움으로 인해 3D 시나리오로 직접 이전할 수 없습니다. 이를 해결하기 위해, 우리는 3D에서 다중 뷰 이미지를 캡셔닝하여 사전 학습된 비전-언어(VL) 기초 모델에 내재된 지식을 추출하는 방법을 제안합니다. 이 방법은 3D와 의미가 풍부한 캡션 간의 명시적인 연관성을 가능하게 합니다. 또한, 캡션에서 시각적-의미적 표현 학습을 촉진하기 위해, 우리는 3D 장면과 다중 뷰 이미지 사이의 기하학적 제약 조건을 활용하여 계층적인 3D-캡션 쌍을 설계하였습니다. 마지막으로, 대조 학습(contrastive learning)을 사용함으로써 모델은 언어를 인식하는 임베딩(embeddings)을 학습하여 3D와 텍스트를 오픈 보카블러리 작업에 연결합니다. 우리의 방법은 오픈 보카블러리 의미 분할과 인스턴스 분할에서 기존 방법보다 최대 44.7% hIoU와 50.4% hAP$_{50}$까지 성능이 우수하며, 도전적인 제로샷 도메인 전환 작업에서도 강력한 전이 능력을 보여줍니다. 프로젝트 웹사이트는 https://dingry.github.io/projects/PLA 에서 확인하실 수 있습니다.

PLA: 언어 주도의 개방형 어휘 3D 장면 이해 | 최신 연구 논문 | HyperAI초신경