17일 전

BabyWalk: 비전-언어 탐색에서 작고 단계적인 발걸음으로 더 멀리 나아가기

Wang Zhu, Hexiang Hu, Jiacheng Chen, Zhiwei Deng, Vihan Jain, Eugene Ie, Fei Sha
BabyWalk: 비전-언어 탐색에서 작고 단계적인 발걸음으로 더 멀리 나아가기
초록

시각-언어 탐색(Vision-and-Language Navigation, VLN)에서 자율 에이전트가 지시사항을 따르는 능력은 근본적으로 중요한 과제이다. 본 논문에서는 짧은 지시사항들로 구성된 코퍼스로부터 학습할 때, 에이전트가 긴 경로를 탐색하는 방법을 탐구한다. 기존 최고 성능을 자랑하는 에이전트들이 긴 지시사항에 대해 일반화 성능이 낮다는 점을 보여주며, 이를 해결하기 위해 우리는 긴 지시사항을 더 짧은 단계(BabySteps)로 분해하고 순차적으로 완료함으로써 탐색을 수행하도록 학습하는 새로운 VLN 에이전트인 BabyWalk를 제안한다. 이 에이전트는 과거 경험을 미래 단계의 맥락으로 전환하기 위해 특수 설계된 메모리 버퍼를 사용한다. 학습 과정은 두 단계로 구성된다. 첫 번째 단계에서는 에이전트가 시연(데모) 기반의 애니메이션 학습(imitation learning)을 통해 BabySteps를 수행한다. 두 번째 단계에서는 지시사항의 길이가 점차 길어지는 커리큘럼 기반 강화 학습(curriculum-based reinforcement learning)을 통해 탐색 과제에서 보상을 극대화하도록 학습한다. 우리는 새로운 긴 탐색 과제용 벤치마크 데이터셋 두 개를 구축하였으며, 기존 데이터셋들과 함께 사용하여 BabyWalk의 일반화 능력을 평가한다. 실험 결과, 다양한 지표에서 BabyWalk가 최고 성능을 달성함을 확인하였으며, 특히 긴 지시사항을 더 잘 따를 수 있다는 점에서 두드러진 성능을 보였다. 코드와 데이터셋은 프로젝트 페이지(https://github.com/Sha-Lab/babywalk)에서 공개된다.

BabyWalk: 비전-언어 탐색에서 작고 단계적인 발걸음으로 더 멀리 나아가기 | 최신 연구 논문 | HyperAI초신경