19일 전

글로벌을 생각하고 로컬에서 행동하라: 시각-언어 탐색을 위한 이중 규모 그래프 트랜스포머

Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev
글로벌을 생각하고 로컬에서 행동하라: 시각-언어 탐색을 위한 이중 규모 그래프 트랜스포머
초록

비상황 환경에서 언어 지시에 따라 탐색하는 것은 자율적 신체화된 에이전트에게 도전적인 문제이다. 에이전트는 시각적 장면 속에서 언어를 정의하는 것 외에도, 목표 지점에 도달하기 위해 환경을 탐색해야 한다. 본 연구에서는 장기적 행동 계획과 미세한 다모달 이해를 통합하기 위해 이중 규모 그래프 트랜스포머(DUET)를 제안한다. 우리는 글로벌 행동 공간에서 효율적인 탐색을 가능하게 하기 위해 실시간으로 위상 지도(topological map)를 구축한다. 큰 행동 공간 내에서의 추론 복잡성과 미세한 언어 정의 간의 균형을 맞추기 위해, 그래프 트랜스포머를 통해 국소 관측에 대한 미세 규모 인코딩과 전역 지도에 대한 거시 규모 인코딩을 동적으로 결합한다. 제안된 DUET 방법은 목표 지향형 시각-언어 탐색(VLN) 벤치마크인 REVERIE와 SOON에서 최첨단 기법들을 크게 능가하며, 미세한 VLN 벤치마크인 R2R에서도 성공률을 향상시킨다.