
초록
시각 및 언어 탐색(Vision and Language Navigation, VLN)은 도전적인 시각 기반 언어 이해 과제이다. 자연어로 구성된 탐색 지시를 기반으로, 시각 에이전트는 파노라마 이미지가 탑재된 그래프 기반 환경과 상호작용하며 설명된 경로를 따라가려 한다. 기존 대부분의 연구는 실내 환경에서 수행되었으며, 학습 과정에서 사용된 경로와 유사한 경로에서는 뛰어난 성능을 보였지만, 새로운 환경에서의 테스트에서는 성능이 급격히 저하되는 경향을 보였다. 본 연구는 실외 환경에서의 VLN에 초점을 맞추었으며, 실내 VLN과는 달리 실외 VLN에서 새로운 환경에 대한 일반화 성능 향상의 대부분은 특정 환경 그래프에 의존하는 특징들—예를 들어 교차로 유형 임베딩 또는 헤딩 차이(heading delta) 등—에 기인함을 발견했다. 반면, 이미지 정보는 새로운 실외 지역으로의 일반화에 거의 기여하지 않는 것으로 나타났다. 이러한 결과는 도시 환경의 그래프 표현에 대한 편향을 드러내며, VLN 과제가 지리적 환경의 규모와 다양성 측면에서 더욱 확대되어야 함을 시사한다.