에이전트의 RGB를 넘어서: 시각-언어 탐색을 위한 하이브리드 의미-공간 환경 표현의 공개

비전-언어 탐색(Vision-and-Language Navigation, VLN)에서 제1인칭 시점의 에이전트가 자연어 지시에 따라 보이지 않는 환경을 탐색하는 것은 여전히 어려운 문제입니다. 기존 접근 방식은 주로 환경 표현을 위해 RGB 이미지를 사용하여, 잠재적인 텍스트 의미론적 및 공간적 단서를 충분히 활용하지 못하고, 지시와 부족한 환경 표현 사이의 모달리티 간극(modality gap)을 해결하지 못하였습니다. 직관적으로 인간은 실내 탐색 중 공간 배치 내에서 의미론적 지식을 본질적으로 정착(grounding)합니다. 이에 영감을 받아, 우리는 다양한 관점에서 환경을 이해하도록 유도하기 위한 다목적 의미론적 이해 및 공간 인식(Semantic Understanding and Spatial Awareness, SUSA) 아키텍처를 제안합니다. SUSA는 지시와 환경 사이의 모달리티 간극을 좁히기 위해 에이전트 주변의 환경 랜드마크 설명을 생성하고 연관시키는 텍스트 의미론적 이해(Textual Semantic Understanding, TSU) 모듈과, 깊이 정보를 활용해 점진적으로 깊이 탐사 맵(depth exploration map)을 구축하여 환경 배치에 대한 더 섬세한 이해를 가능하게 하는 깊이 강화된 공간 인식(Depth-enhanced Spatial Perception, DSP) 모듈로 구성됩니다. 실험 결과, SUSA의 하이브리드 의미론-공간 표현(hybrid semantic-spatial representations)이 탐색 성능을 효과적으로 향상시키며, 세 가지 VLN 벤치마크(REVERIE, R2R, SOON)에서 새로운 최고 수준의 성능(state-of-the-art performance)을 달성함을 입증하였습니다. 소스 코드는 공개될 예정입니다.