19일 전
BEVBert: 언어 지도 탐색을 위한 다중모달 지도 사전학습
Dong An, Yuankai Qi, Yangguang Li, Yan Huang, Liang Wang, Tieniu Tan, Jing Shao

초록
대규모 사전 훈련은 시각-언어 탐색(Vision-and-Language Navigation, VLN) 과제에서 희망적인 결과를 보여주고 있다. 그러나 기존의 대부분의 사전 훈련 방법은 시각-텍스트 상관관계를 학습하기 위해 이산적 패노라마를 사용한다. 이는 패노라마 내부의 불완전하고 중복된 관측을 모델이 암묵적으로 연결해야 하며, 이로 인해 에이전트의 공간 이해 능력이 저하될 수 있다. 따라서 우리는 VLN에 적합한 공간 인식형 사전 훈련 패러다임을 제안한다. 구체적으로, 국부적 메트릭 맵을 구축하여 불완전한 관측을 명시적으로 통합하고 중복을 제거함과 동시에, 전역적 토폴로지 맵을 통해 탐색 의존성을 모델링한다. 이러한 하이브리드 설계는 VLN이 요구하는 단기적 추론과 장기적 계획 간의 균형을 잘 유지할 수 있다. 이후, 이 하이브리드 맵을 기반으로 다모달 맵 표현을 학습할 수 있는 사전 훈련 프레임워크를 제안한다. 이는 공간 인식형 다모달 추론을 강화함으로써 언어 지도 탐색 목표 달성에 기여한다. 광범위한 실험을 통해 공간 기반 사전 훈련 경로의 효과성을 입증하였으며, 제안된 방법은 네 가지 VLN 벤치마크에서 최고 성능을 달성하였다.