환경에 구애받지 않는 다중작업 학습을 통한 자연어 기반 탐색

최근의 연구 노력은 사진처럼 사실적인 환경에서 자연어 기반 탐색을 가능하게 하였으며, 예를 들어 자연어 지시사항을 따르거나 대화를 통해 탐색하는 등의 작업이 가능해졌다. 그러나 기존의 방법들은 학습 시에 접한 환경에 과도하게 최적화되어(오버피팅) 미리 보지 못한 환경에서는 일반화 성능이 낮은 경향이 있다. 이러한 ‘보인 환경’과 ‘보지 않은 환경’ 사이의 격차를 줄이기 위해, 우리는 두 가지 새로운 관점에서 일반화된 탐색 모델을 학습하는 것을 목표로 한다. 첫째, 시각-언어 탐색(Vision-Language Navigation, VLN)과 대화 이력 기반 탐색(Navigation from Dialog History, NDH)이라는 두 가지 작업을 원활하게 동시에 학습할 수 있는 다중업무 탐색 모델을 제안한다. 이 모델은 풍부한 자연어 안내 정보를 활용하며, 서로 다른 작업 간에 지식을 효과적으로 전이할 수 있다. 둘째, 학습 중에 접한 다양한 환경에 관계없이 변하지 않는(환경 무관한, environment-agnostic) 탐색 정책 표현을 학습하는 방안을 제안한다. 이는 미지의 환경에서도 더 나은 일반화 성능을 달성하는 데 기여한다. 광범위한 실험 결과에 따르면, 환경 무관한 다중업무 학습은 보인 환경과 보지 않은 환경 간의 성능 격차를 크게 줄이며, 특히 VLN에서는 성공률 기준으로 16%의 상대적 성능 향상, NDH에서는 목표 진전률 기준으로 120%의 상대적 향상을 달성한다. 또한, CVDN 리더보드에 제출한 결과는 보류된 테스트 세트에서 NDH 작업에 대해 새로운 최고 성능을 기록하였다. 코드는 https://github.com/google-research/valan 에서 공개되어 있다.