16일 전

리토크다운: 스트리트 러닝에 터치다운을 추가하여 스트리트 뷰에서 언어 기반 작업을 위한 공유 가능한 자원으로 활용하기

Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski
리토크다운: 스트리트 러닝에 터치다운을 추가하여 스트리트 뷰에서 언어 기반 작업을 위한 공유 가능한 자원으로 활용하기
초록

터치다운 데이터셋(Touchdown dataset, Chen 등, 2019)은 뉴욕 시내 거리에서의 탐색 및 특정 위치에서의 공간적 설명 해석을 위한 인간 레이블러의 지침을 제공한다. 터치다운 작업을 더 넓은 연구 공동체가 효과적으로 활용할 수 있도록, 터치다운 작업에 필요한 29,000개의 원시 스트리트 뷰 패노라마를 공개한다. 이 과정에서는 스트리트리언(StreetLearn) 데이터셋 공개 시 사용된 절차(Mirowski 등, 2019)를 따르며, 개인을 식별할 수 있는 정보가 포함된 패노라마를 확인하고 필요에 따라 흐리게 처리한다. 이러한 패노라마는 이미 스트리트리언 데이터셋에 추가되었으며, 이전 스트리트리언 데이터셋을 다운로드하는 것과 동일한 방식으로 접근할 수 있다. 또한, 터치다운 작업의 두 가지 주요 과제—시각 및 언어 탐색(Vision and Language Navigation, VLN)과 공간적 설명 해석(Spatial Description Resolution, SDR)—에 대한 참조 구현체(Reference Implementation)도 제공한다. 본 연구에서는 본 모델의 성능을 Chen 등(2019)의 결과와 비교하여, 스트리트리언에 추가된 패노라마가 터치다운 작업의 두 가지 과제를 완전히 지원함을 보이며, 향후 연구 및 성능 비교에 효과적으로 활용될 수 있음을 입증한다.

리토크다운: 스트리트 러닝에 터치다운을 추가하여 스트리트 뷰에서 언어 기반 작업을 위한 공유 가능한 자원으로 활용하기 | 최신 연구 논문 | HyperAI초신경