19일 전

HOP: 시각-언어 탐색을 위한 역사 및 순서 인지 사전 학습

Yanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang, Qi Wu
HOP: 시각-언어 탐색을 위한 역사 및 순서 인지 사전 학습
초록

최근 몇몇 연구에서 시각-언어 탐색(Vision-and-Language Navigation, VLN)에 사전 훈련(pre-training) 기법이 도입되었다. 그러나 기존의 VLN 사전 훈련 방법들은 미래 행동 예측 능력을 갖추지 못하거나, 탐색 과정에서 필수적인 경로 맥락을 무시하는 등의 한계를 가지고 있다. 본 연구에서는 시공간적 시각-텍스트 대응 관계의 학습을 촉진하고 에이전트의 의사결정 능력을 강화하기 위해, 과거 관측 정보를 활용하고 미래 행동 예측을 지원하는 VLN 전용 목적함수를 갖춘 새로운 히스토리 및 순서 인지 사전 훈련 프레임워크(History-and-Order Aware Pre-training, HOP)를 제안한다. 구체적으로, 일반적으로 사용되는 마스킹 언어 모델링(Masked Language Modeling, MLM)과 경로-지시어 매칭(Trajectory-Instruction Matching, TIM) 외에, 시계열 순서 정보를 모델링하기 위한 두 가지 대리 과제를 설계하였다. 이는 경로 순서 모델링(Trajectory Order Modeling, TOM)과 그룹 순서 모델링(Group Order Modeling, GOM)이다. 또한, 과거 시각적 인지 정보를 반영하는 역사 기반 행동 예측(Task of Action Prediction with History, APH) 과제를 도입함으로써 탐색 행동 예측 성능을 더욱 향상시켰다. 제안한 방법은 R2R, REVERIE, NDH, RxR 등 네 가지 하류 VLN 작업에 대해 광범위한 실험을 통해 기존의 여러 최첨단 에이전트들과 비교하여 우수한 성능을 입증하였다.