19일 전
라벨링되지 않은 3D 환경에서 학습하는 시각-언어 탐색
Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev

초록
시각-언어 탐색(Vision-and-Language Navigation, VLN)에서는 몸체화된 에이전트가 자연어 지시에 따라 현실적인 3D 환경을 탐색해야 한다. 기존 VLN 접근법의 주요한 한계는 충분한 훈련 데이터의 부족으로 인해 미지의 환경에 대한 일반화 성능이 만족스럽지 못하다는 점이다. 일반적으로 VLN 데이터는 수동으로 수집되지만, 이러한 방식은 비용이 높고 확장성에 한계가 있다. 본 연구에서는 HM3D의 900개의 레이블되지 않은 3D 건물로부터 대규모 VLN 데이터셋을 자동으로 생성함으로써 데이터 부족 문제를 해결한다. 각 건물에 대해 탐색 그래프를 생성하고, 2D 이미지에서 추출한 객체 예측을 다각도 일관성(cross-view consistency)을 기반으로 3D로 전이하여 가상의 3D 객체 레이블을 생성한다. 이후 이러한 가상 객체 레이블을 프롬프트로 사용하여 사전 훈련된 언어 모델을 미세 조정함으로써 지시 생성 과정에서의 다중 모달 간 격차를 완화한다. 결과적으로 생성된 HM3D-AutoVLN 데이터셋은 탐색 환경과 지시 문장 측면에서 기존 VLN 데이터셋보다 한 단계 이상 더 크다. 실험을 통해 HM3D-AutoVLN이 VLN 모델의 일반화 능력을 크게 향상시킴을 입증하였다. REVERIE 및 SOON 데이터셋의 미지 검증 세트에서 각각 SPL 지표 기준으로 기존 최고 성능 대비 7.1%, 8.1% 향상되는 결과를 달성하였다.