17일 전
시각-언어 탐색을 위한 일반화된 에이전트 학습을 위한 사전 학습 기반 접근
Weituo Hao, Chunyuan Li, Xiujun Li, Lawrence Carin, Jianfeng Gao

초록
시각 환경에서 자연어 지시에 따라 탐색하는 것은, 에이전트가 다중 모달 입력을 처리해야 하며, 새로운 작업에 대한 훈련 데이터가 흔히 제한적이기 때문에 도전적인 과제이다. 본 논문에서는 시각-언어 탐색(Vision-and-Language Navigation, VLN) 작업을 위한 최초의 사전 훈련 및 미세 조정(fine-tuning) 파라다임을 제안한다. 대량의 이미지-텍스트-행동 삼중 항목을 자기지도 학습(self-supervised learning) 방식으로 훈련함으로써, 사전 훈련된 모델은 시각적 환경과 언어 지시의 일반적인 표현을 제공한다. 이 모델은 기존 VLN 프레임워크에 쉽게 통합될 수 있으며, 이를 통해 제안된 에이전트인 Prevalent을 구현할 수 있다. Prevalent은 새로운 작업에서 더 효과적으로 학습하고, 미지의 환경에서도 더 우수한 일반화 성능을 발휘한다. 제안된 모델의 성능은 세 가지 VLN 작업에서 검증되었다. Room-to-Room 벤치마크에서, 성공률(경로 길이에 가중치를 부여한)은 기존 최고 성능인 47%에서 51%로 향상되었다. 또한, 학습된 표현은 다른 VLN 작업으로도 전이 가능하다. 최근의 두 가지 작업인 시각-대화 탐색(Vision-and-Dialog Navigation)과 "도와줘, 앤나!"(Help, Anna!)에서, 기존 방법에 비해 상당한 성능 향상을 보이며 새로운 최고 성능을 달성하였다.