13일 전

룸-어크로즈-룸: 밀도 높은 시공간 기반을 갖춘 다국어 시각·언어 탐색

Alexander Ku, Peter Anderson, Roma Patel, Eugene Ie, Jason Baldridge
룸-어크로즈-룸: 밀도 높은 시공간 기반을 갖춘 다국어 시각·언어 탐색
초록

우리는 Room-Across-Room(RxR)이라는 새로운 시각-언어 탐색(Vision-and-Language Navigation, VLN) 데이터셋을 소개한다. RxR는 영어, 힌디어, 텔루구어 등 다국어로 구성되며, 다른 VLN 데이터셋보다 더 방대하고(더 많은 경로와 지시문 포함) 다국어 지원을 제공한다. 이 데이터셋은 경로에 대한 기존 편향 문제를 해결하고, 시각적으로 확인 가능한 실체에 대한 더 많은 언어적 참조를 유도함으로써 언어가 VLN에서 차지하는 역할을 강조한다. 또한, 지시문 내 각 단어는 지시문 작성자 및 검증자의 가상 위치(가상 포즈)와 시간적으로 정렬되어 있다. 본 연구에서는 단일 언어 및 다국어 설정, 다중 작업 학습(Multitask Learning)에서의 기준 성능(Baseline Score)을 제시하며, Room-to-Room annotation을 포함한 경우의 성능도 분석한다. 더불어, 인간의 시연에서 주목된 패노라마 영역에만 집중하는 방식으로 동기화된 포즈 추적 데이터를 활용해 학습하는 모델의 성능도 제시한다. RxR의 규모, 범위, 세부 사항은 시뮬레이션된 사진 수준의 사실감 있는 환경에서 몸을 가진 언어 에이전트에 대한 연구 영역을 획기적으로 확장한다.

룸-어크로즈-룸: 밀도 높은 시공간 기반을 갖춘 다국어 시각·언어 탐색 | 최신 연구 논문 | HyperAI초신경