16일 전

EnvEdit: 시각-언어 탐색을 위한 환경 편집

Jialu Li, Hao Tan, Mohit Bansal
EnvEdit: 시각-언어 탐색을 위한 환경 편집
초록

시각-언어 탐색(Vision-and-Language Navigation, VLN)에서 에이전트는 자연어 지시에 따라 환경 내에서 탐색해야 한다. 에이전트 학습에 이용 가능한 데이터가 제한적이며, 탐색 환경의 다양성도 유한하기 때문에, 새로운 미지의 환경으로의 일반화는 여전히 도전적인 과제이다. 이러한 문제를 해결하기 위해, 기존 환경을 편집함으로써 새로운 환경을 생성하는 데이터 증강 방법인 EnvEdit을 제안한다. 본 방법을 통해 얻어진 증강된 환경은 기존 환경과 스타일, 객체 외관, 객체 클래스의 세 가지 측면에서 다양하게 달라질 수 있다. 이러한 편집 증강된 환경에서 학습함으로써, 에이전트는 기존 환경에 과적합되는 것을 방지하고, 새로운 미지의 환경으로의 일반화 성능을 향상시킬 수 있다. 실증적으로 Room-to-Room 및 다국어 Room-Across-Room 데이터셋에서, 사전 학습된 에이전트와 사전 학습되지 않은 에이전트 모두에서 제안하는 EnvEdit 방법이 모든 평가 지표에서 유의미한 성능 향상을 보이며, 테스트 리더보드에서 새로운 최고 성능(SOTA)을 달성하였다. 또한, 다양한 편집된 환경에서 증강된 VLN 에이전트들을 앙상블한 결과, 각각의 편집 방법이 서로 보완적임을 확인하였다. 코드와 데이터는 https://github.com/jialuli-luka/EnvEdit 에서 공개되어 있다.

EnvEdit: 시각-언어 탐색을 위한 환경 편집 | 최신 연구 논문 | HyperAI초신경