
초록
인간 환경에서 로봇이 이동할 때는 도움을 요청하기 위해 언어를 사용하고 인간의 응답을 이해할 수 있어야 합니다. 이 문제를 연구하기 위해 우리는 시뮬레이션된 사진같이 실제적인 가정 환경에 위치한 2,000개 이상의 인체화된 인간-인간 대화 데이터셋인 Cooperative Vision-and-Dialog Navigation(CVDN)을 소개합니다. 네비게이터(Navigator)는 목표물까지의 최단 경로 계획자(shortest path planner)가 제시하는 최적의 다음 단계에 대한 특권 정보를 가지고 있는 오라클(Oracle)에게 질문합니다. 목표 위치를 찾기 위해 환경을 탐색하는 에이전트(agent)를 훈련시키기 위해, 우리는 대화 기록에서의 네비게이션(Navigation from Dialog History) 작업을 정의합니다. 에이전트는 목표 물체와 그 물체를 찾기 위해 협력하는 인간 간의 대화 기록을 주어졌을 때, 탐사되지 않은 환경에서 목표물로 향하는 탐색 동작을 추론해야 합니다. 우리는 초기 다중 모달 시퀀스-투-시퀀스(sequence-to-sequence) 모델을 설정하고, 대화 기록에서 더 먼 과거를 참고하면 성능이 개선됨을 보여줍니다. 소스 코드와 실시간 인터페이스 데모는 https://cvdn.dev/에서 확인할 수 있습니다.