11일 전

정지하는 법을 배우기: 도시 환경에서의 시각-언어 탐색을 위한 간단하면서도 효과적인 접근법

Jiannan Xiang, Xin Eric Wang, William Yang Wang
정지하는 법을 배우기: 도시 환경에서의 시각-언어 탐색을 위한 간단하면서도 효과적인 접근법
초록

시각-언어 탐색(Vision-and-Language Navigation, VLN)은 에이전트가 실제 환경에서 언어 지시사항을 이해하고 특정 목적지로 탐색하는 자연어 기반 지시 작업이다. 주요 과제는 복잡한 실외 환경에서 올바른 위치를 인식하고 정지하는 것이다. 기존 방법들은 STOP 행동을 다른 행동들과 동일하게 취급하기 때문에, 에이전트가 올바른 경로를 따라가고 있음에도 불구하고 목적지에서 멈추지 않는 바람직하지 않은 행동이 자주 발생한다. 이를 해결하기 위해 우리는 STOP 행동과 다른 행동을 구분할 수 있는 간단하면서도 효과적인 정책 모듈인 L2Stop(Learning to Stop)을 제안한다. 제안한 방법은 도전적인 도시 환경 VLN 데이터셋인 Touchdown에서 최신 기준 성능을 달성하였으며, 편집 거리(Edit Distance)에 따라 가중된 성공률(Success weighted by Edit Distance, SED) 기준으로 기준 모델 대비 6.89%의 절대적인 성능 향상을 기록하였다.

정지하는 법을 배우기: 도시 환경에서의 시각-언어 탐색을 위한 간단하면서도 효과적인 접근법 | 최신 연구 논문 | HyperAI초신경