2달 전
PLA: 언어 주도의 개방형 어휘 3D 장면 이해
Ding, Runyu ; Yang, Jihan ; Xue, Chuhui ; Zhang, Wenqing ; Bai, Song ; Qi, Xiaojuan

초록
오픈 보카블러리 장면 이해는 주석화된 라벨 공간을 벗어난 미확인 카테고리를 위치 추정하고 인식하는 것을 목표로 합니다. 최근 2D 오픈 보카블러리 인식의 혁신은 인터넷 규모의 이미지-텍스트 쌍 데이터와 풍부한 보카블러리 개념에 의해 크게 이끌어졌습니다. 그러나 이러한 성공은 대규모 3D-텍스트 쌍 데이터의 접근 어려움으로 인해 3D 시나리오로 직접 이전할 수 없습니다. 이를 해결하기 위해, 우리는 3D에서 다중 뷰 이미지를 캡셔닝하여 사전 학습된 비전-언어(VL) 기초 모델에 내재된 지식을 추출하는 방법을 제안합니다. 이 방법은 3D와 의미가 풍부한 캡션 간의 명시적인 연관성을 가능하게 합니다. 또한, 캡션에서 시각적-의미적 표현 학습을 촉진하기 위해, 우리는 3D 장면과 다중 뷰 이미지 사이의 기하학적 제약 조건을 활용하여 계층적인 3D-캡션 쌍을 설계하였습니다. 마지막으로, 대조 학습(contrastive learning)을 사용함으로써 모델은 언어를 인식하는 임베딩(embeddings)을 학습하여 3D와 텍스트를 오픈 보카블러리 작업에 연결합니다. 우리의 방법은 오픈 보카블러리 의미 분할과 인스턴스 분할에서 기존 방법보다 최대 44.7% hIoU와 50.4% hAP$_{50}$까지 성능이 우수하며, 도전적인 제로샷 도메인 전환 작업에서도 강력한 전이 능력을 보여줍니다. 프로젝트 웹사이트는 https://dingry.github.io/projects/PLA 에서 확인하실 수 있습니다.