2달 전

미처 본 적 없는 환경에서의 탐색 학습: 환경 드롭아웃을 이용한 역번역

Hao Tan; Licheng Yu; Mohit Bansal
미처 본 적 없는 환경에서의 탐색 학습: 환경 드롭아웃을 이용한 역번역
초록

AI의 주요 목표 중 하나는 자연어 지시에 따라 정확히 이동할 수 있는 로봇을 개발하는 것입니다. 이를 위해서는 에이전트가 장면을 인식하고, 언어를 이해 및 지칭하며, 실제 환경에서 행동할 수 있어야 합니다. 여기서 중요한 과제 중 하나는 훈련 시 보지 못한 새로운 환경에서 이동 경로를 학습하는 것입니다. 기존의 대부분 접근 방식은 훈련된 환경과 비교하여 보지 못한 환경에서는 성능이 크게 떨어집니다. 본 논문에서는 일반화 가능한 탐색 에이전트를 제시합니다. 우리의 에이전트는 두 단계로 훈련됩니다. 첫 번째 단계는 혼합 모방 학습과 강화 학습을 통해 이루어지며, 오프-폴리시와 온-폴리시 최적화의 이점을 결합합니다. 두 번째 단계는 새로 도입된 '보지 못한' 트리플렛(환경, 경로, 지시)을 사용하여 미세 조정(fine-tuning)하는 것입니다. 이러한 보지 못한 트리플렛을 생성하기 위해, 우리는 간단하지만 효과적인 '환경 드롭아웃(environmental dropout)' 방법을 제안하여 보지 못한 환경을 모사합니다. 이 방법은 훈련된 환경의 다양성이 제한되어 있는 문제를 해결합니다. 다음으로, 드롭아웃된 환경에서 반감독 학습(역번역(back-translation)을 통해)을 적용하여 새로운 경로와 지시를 생성합니다. 경험적으로, 우리는 이러한 트리플렛으로 미세 조정된 후 우리 에이전트가 일반화 능력에서 현저히 우수하다는 것을 보여주며, Room-to-Room 작업의 사설 보지 못한 테스트 세트에서 기존 최고 수준의 접근 방식보다 큰 차이로 우수한 성능을 발휘하며 리더보드에서 최상위 등급을 달성하였습니다.

미처 본 적 없는 환경에서의 탐색 학습: 환경 드롭아웃을 이용한 역번역 | 최신 연구 논문 | HyperAI초신경