16일 전

시각-언어 탐색을 위한 역사 인지 다중모달 트랜스포머

Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev
시각-언어 탐색을 위한 역사 인지 다중모달 트랜스포머
초록

시각-언어 탐색(Vision-and-language navigation, VLN)은 실제 환경에서 지시를 따라 이동하는 자율적인 시각 에이전트를 구축하는 것을 목표로 한다. 과거에 방문한 장소와 수행한 행동을 기억하기 위해 대부분의 VLN 접근법은 순환 상태(recurrent states)를 활용한 메모리 구조를 도입한다. 반면, 우리는 장기적인 경험 기록을 다모달 의사결정에 통합하기 위해 역사 인지형 다모달 트랜스포머(History Aware Multimodal Transformer, HAMT)를 제안한다. HAMT는 계층적 비전 트랜스포머(Hierarchical Vision Transformer, ViT)를 통해 과거의 모든 원형 관측 데이터를 효율적으로 인코딩한다. 이 과정에서 먼저 각 개별 이미지를 ViT로 인코딩하고, 원형 관측 내 이미지 간의 공간 관계를 모델링한 후, 기록된 원형 관측들 사이의 시간적 관계를 고려한다. 이후, 텍스트, 과거 기록, 현재 관측을 함께 조합하여 다음 행동을 예측한다. 우리는 먼저 단일 스텝 행동 예측 및 공간 관계 예측과 같은 다양한 보조 작업(proxy tasks)을 통해 HAMT를 엔드투엔드(end-to-end)로 훈련한 후, 강화 학습을 활용하여 탐색 정책을 추가로 개선한다. HAMT는 세부 지시(R2R, RxR), 고수준 지시(R2R-Last, REVERIE), 대화 기반 탐색(CVDN), 장기 탐색(R4R, R2R-Back) 등 다양한 VLN 과제에서 새로운 최고 성능을 달성하였다. 특히 긴 경로를 요구하는 탐색 과제에서 HAMT의 효과가 두드러짐을 입증하였다.

시각-언어 탐색을 위한 역사 인지 다중모달 트랜스포머 | 최신 연구 논문 | HyperAI초신경