19일 전

내비게이션을 위한 순환 시각-언어 BERT

Yicong Hong, Qi Wu, Yuankai Qi, Cristian Rodriguez-Opazo, Stephen Gould
내비게이션을 위한 순환 시각-언어 BERT
초록

시각어의미(비전-언어, V&L) BERT의 적용으로 인해 많은 시각어의미 임무의 정확도가 크게 향상되었다. 그러나 시각-언어 탐색(Vision-and-Language Navigation, VLN) 임무에 대한 BERT의 적용은 여전히 제한적이다. 이는 VLN에서 존재하는 부분 관측 가능한 마르코프 결정 과정(PO-MDP)에 BERT 아키텍처를 적응시키는 데 어려움이 있기 때문이다. 이러한 과정은 과거 상태에 의존하는 주의(attention)와 결정을 요구한다. 본 논문에서는 VLN에 활용하기 위한 시간 인식(time-aware)의 순환적(BERT) 모델을 제안한다. 구체적으로, 에이전트의 다중 모달 상태 정보를 유지할 수 있도록 BERT 모델에 순환 함수를 부여하였다. R2R 및 REVERIE 데이터셋을 대상으로 실시한 광범위한 실험을 통해, 본 모델이 더 복잡한 인코더-디코더 아키텍처를 대체하여 최신 기술 수준의 성능을 달성할 수 있음을 입증하였다. 또한 본 방법은 다른 트랜스포머 기반 아키텍처로 일반화 가능하며, 사전 훈련(pre-training)을 지원하며, 탐색 및 언어 지시 표현(refering expression) 임무를 동시에 해결할 수 있음을 보였다.

내비게이션을 위한 순환 시각-언어 BERT | 연구 논문 | HyperAI초신경