11일 전

외부 환경의 시각-언어 탐색을 위한 다중모달 텍스트 스타일 전이

Wanrong Zhu, Xin Eric Wang, Tsu-Jui Fu, An Yan, Pradyumna Narayana, Kazoo Sone, Sugato Basu, William Yang Wang
외부 환경의 시각-언어 탐색을 위한 다중모달 텍스트 스타일 전이
초록

자연어처리(NLP) 분야에서 가장 도전적인 주제 중 하나는 시각적으로 기반을 둔 언어 이해 및 추론이다. 실외 비전-언어 탐색(Vision-and-Language Navigation, VLN)은 에이전트가 자연어 지시사항을 따라 실제 도시 환경에서 탐색하는 작업으로, 이는 복잡한 도시 환경을 정확히 묘사한 인간 주석이 부족한 상황에서 해결하기 어려운 과제로 남아 있다. 본 논문에서는 외부 다중모달 리소스를 활용하여 실외 탐색 과제에서의 데이터 부족 문제를 완화하기 위해 다중모달 텍스트 스타일 전이(Multimodal Text Style Transfer, MTST) 학습 방법을 제안한다. 먼저 Google Maps API를 통해 생성된 지시사항의 스타일을 전이하여 탐색 데이터를 풍부화한 후, 증강된 외부 실외 탐색 데이터셋을 이용해 네비게이터 모델을 사전학습한다. 실험 결과, 제안한 MTST 학습 방법은 모델에 독립적이며, 실외 VLN 과제에서 기준 모델보다 유의미하게 우수한 성능을 보였으며, 테스트 세트에서 작업 완료율을 상대적으로 8.7% 향상시켰다.

외부 환경의 시각-언어 탐색을 위한 다중모달 텍스트 스타일 전이 | 최신 연구 논문 | HyperAI초신경