12일 전

새로운 길: 합성 지시문과 모방 학습을 통한 시각-언어 탐색의 확장

Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku, Austin Waters, Yinfei Yang, Jason Baldridge, Zarana Parekh
새로운 길: 합성 지시문과 모방 학습을 통한 시각-언어 탐색의 확장
초록

최근 비전-언어 탐색(Vision-and-Language Navigation, VLN) 분야의 연구들은 인간의 자연어 지시를 따라 실사 수준의 환경에서 이동하는 강화학습(RL) 에이전트를 훈련시키는 데 초점을 맞추고 있으며, 이는 인간의 지시를 따르는 로봇 개발을 위한 한 단계로 여겨진다. 그러나 인간 지시 데이터의 부족과 훈련 환경의 제한된 다양성으로 인해, 기존의 에이전트는 복잡한 언어 기반 인식과 공간적 언어 이해에 여전히 어려움을 겪고 있다. 웹에서 수집한 대규모 텍스트 및 이미지-텍스트 데이터셋을 기반으로 한 사전 훈련은 널리 연구되었지만, 성능 향상은 제한적이다. 본 연구에서는 합성 지시어를 활용한 대규모 증강 기법을 탐구한다. 우리는 360도 포아노라마로 밀도 높게 촬영된 500개 이상의 실내 환경을 활용하고, 이러한 포아노라마를 기반으로 탐색 경로를 구성한 후, 고품질의 다국어 탐색 지시어 생성기인 Marky를 사용해 각 경로에 대해 시각적으로 기반을 둔 지시어를 생성한다. 또한 이미지-이미지 GAN을 활용해 새로운 시점에서의 이미지 관측값을 합성한다. 최종적으로 생성된 420만 개의 지시어-경로 쌍 데이터셋은 기존의 인간 주석 데이터셋보다 두 자릿수 이상 크며, 더 다양한 환경과 시점이 포함되어 있다. 이러한 대규모 데이터를 효율적으로 활용하기 위해, 단순한 트랜스포머 기반 에이전트를 애니메이션 학습(imitation learning)을 통해 훈련시킨다. 도전적인 RxR 데이터셋에서 본 연구의 접근법은 기존의 모든 RL 에이전트를 능가하며, 사전 훈련된 환경에서는 기존 최고 성능(NDTW 71.1)을 79.1로, 미리 보지 않은 테스트 환경에서는 64.6에서 66.8로 개선하였다. 본 연구는 지시어를 따르는 에이전트의 성능 향상을 위한 새로운 방향을 제시하며, 대규모 애니메이션 학습과 합성 지시어 생성 기술의 개발이 중요함을 강조한다.

새로운 길: 합성 지시문과 모방 학습을 통한 시각-언어 탐색의 확장 | 최신 연구 논문 | HyperAI초신경