2달 전
전술적 재추적: 시각-언어 탐색에서의 후진을 통한 자가 교정
Liyiming Ke; Xiujun Li; Yonatan Bisk; Ari Holtzman; Zhe Gan; Jingjing Liu; Jianfeng Gao; Yejin Choi; Siddhartha Srinivasa

초록
우리는 안더슨 등(2018)이 제시한 Room-to-Room (R2R) Vision-and-Language 네비게이션 도전 과제에서 최고 수준의 성과를 거둔 Frontier Aware Search with backTracking (FAST) 네비게이터, 행동 해독을 위한 일반적인 프레임워크를 소개합니다. 이 시스템은 자연어 지시문과 이전에 본 적 없는 환경의 사진 같은 이미지 뷰가 주어졌을 때, 에이전트가 출발지에서 목적지까지 가능한 한 빠르게 이동하는 임무를 수행하도록 설계되었습니다. 현재 모든 접근 방식이 로컬 행동 결정을 내리거나 빔 검색을 사용하여 전체 경로를 점수화하는 반면, 우리의 방법은 관찰되지 않은 환경 탐색 시 로컬 및 글로벌 신호 간의 균형을 맞춥니다. 특히, 이는 우리에게 탐욕적으로 행동하면서 필요할 때 글로벌 신호를 활용해 역추적(backtracking)할 수 있게 합니다. 기존 최고 수준의 모델에 FAST 프레임워크를 적용함으로써 상대적으로 17%, 절대적으로 경로 길이 가중 성공률(Success rate weighted by Path Length, SPL)에서 6%의 성능 향상을 달성했습니다.