16일 전
리토크다운: 스트리트 러닝에 터치다운을 추가하여 스트리트 뷰에서 언어 기반 작업을 위한 공유 가능한 자원으로 활용하기
Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski

초록
터치다운 데이터셋(Touchdown dataset, Chen 등, 2019)은 뉴욕 시내 거리에서의 탐색 및 특정 위치에서의 공간적 설명 해석을 위한 인간 레이블러의 지침을 제공한다. 터치다운 작업을 더 넓은 연구 공동체가 효과적으로 활용할 수 있도록, 터치다운 작업에 필요한 29,000개의 원시 스트리트 뷰 패노라마를 공개한다. 이 과정에서는 스트리트리언(StreetLearn) 데이터셋 공개 시 사용된 절차(Mirowski 등, 2019)를 따르며, 개인을 식별할 수 있는 정보가 포함된 패노라마를 확인하고 필요에 따라 흐리게 처리한다. 이러한 패노라마는 이미 스트리트리언 데이터셋에 추가되었으며, 이전 스트리트리언 데이터셋을 다운로드하는 것과 동일한 방식으로 접근할 수 있다. 또한, 터치다운 작업의 두 가지 주요 과제—시각 및 언어 탐색(Vision and Language Navigation, VLN)과 공간적 설명 해석(Spatial Description Resolution, SDR)—에 대한 참조 구현체(Reference Implementation)도 제공한다. 본 연구에서는 본 모델의 성능을 Chen 등(2019)의 결과와 비교하여, 스트리트리언에 추가된 패노라마가 터치다운 작업의 두 가지 과제를 완전히 지원함을 보이며, 향후 연구 및 성능 비교에 효과적으로 활용될 수 있음을 입증한다.