2달 전
시각-언어 네비게이션: 실제 환경에서 시각적으로 기반한 탐색 지침 해석
Peter Anderson; Qi Wu; Damien Teney; Jake Bruce; Mark Johnson; Niko Sünderhauf; Ian Reid; Stephen Gould; Anton van den Hengel

초록
자연어 지시를 수행할 수 있는 로봇은 《제트슨 가족》 애니메이션 시리즈가 주의 깊은 로봇 보조원들이 중재하는 여가 생활을 상상하기 전부터 꿈이었습니다. 이 꿈은 여전히 멀게 느껴지지만, 최근 시각 및 언어 방법론에서 이루어진 발전으로 관련 분야에서 놀라운 진보가 이루어졌습니다. 이는 중요합니다. 왜냐하면 로봇이 보는 것을 기반으로 자연어 탐색 지시를 해석하는 과정은 시각 질문 응답(Visual Question Answering)과 유사한 시각 및 언어 처리 과정이기 때문입니다. 두 작업 모두 시각적으로 기반을 둔 시퀀스-투-시퀀스(sequence-to-sequence) 번역 문제로 해석될 수 있으며, 많은 동일한 방법론이 적용될 수 있습니다.시각 및 언어 방법론을 실제 환경에서의 탐색 지시 해석 문제에 적용하고 이를 장려하기 위해, 우리는 실제 이미지를 기반으로 한 대규모 강화 학습 환경인 Matterport3D 시뮬레이터를 소개합니다. 이 시뮬레이터는 향후 다양한 체화된(embodied) 시각 및 언어 작업을 지원할 수 있으며, 우리는 이를 사용하여 실제 건물에서의 시각적으로 기반을 둔 자연어 탐색의 첫 번째 벤치마크 데이터셋인 Room-to-Room (R2R) 데이터셋을 제공합니다.