19일 전

메타-익스플로어: 장면 객체 스펙트럼 기반을 이용한 탐색적 계층적 시각-언어 탐색

Minyoung Hwang, Jaeyeon Jeong, Minsoo Kim, Yoonseon Oh, Songhwai Oh
메타-익스플로어: 장면 객체 스펙트럼 기반을 이용한 탐색적 계층적 시각-언어 탐색
초록

시각-언어 탐색(Vision-and-Language Navigation, VLN)의 주요 과제는 미지 환경에서 자연어 지시어를 어떻게 이해할 것인지이다. 기존 VLN 알고리즘의 주요 한계는 한 번의 행동 오류가 발생하면 에이전트가 지시를 올바르게 수행하지 못하거나 불필요한 영역을 탐색하게 되어 되돌릴 수 없는 경로로 이어진다는 점이다. 이 문제를 해결하기 위해 우리는 최근 잘못된 행동을 보정할 수 있는 탐색 정책을 도입한 계층적 탐색 방법인 Meta-Explore를 제안한다. 본 연구에서는, 미방문이지만 관측 가능한 상태들 중에서 잘 선택된 국부적 목표로 에이전트를 이동시키는 탐색 정책이 이전에 방문했던 상태로 이동시키는 기존 방법보다 우수함을 입증한다. 또한, 의미적으로 유의미한 단서를 기반으로 후회스러운 탐색을 상상하는 필요성을 강조한다. 본 연구의 핵심은 에이전트 주변의 객체 배치를 주파수 도메인(spectral-domain)에서 이해하는 데 있다. 구체적으로, 탐지된 객체에 대해 카테고리별로 2차원 푸리에 변환을 수행하는 새로운 시각 표현 방법인 장면 객체 스펙트럼(Scene Object Spectrum, SOS)을 제안한다. 탐색 정책과 SOS 특징을 결합함으로써, 에이전트는 유망한 국부적 목표를 선택함으로써 자신의 경로를 보정할 수 있다. 제안한 방법은 R2R, SOON, REVERIE 세 가지 VLN 벤치마크에서 평가되었으며, 다른 기준선 대비 우수한 성능을 보이며 뛰어난 일반화 능력을 입증하였다. 특히, 제안된 주파수 도메인 SOS 특징을 활용한 국부적 목표 탐색은 SOON 벤치마크에서 성공률을 17.1% 향상시키고, SPL(Success Rate weighted by Path Length)은 20.6% 개선하는 효과를 나타냈다.

메타-익스플로어: 장면 객체 스펙트럼 기반을 이용한 탐색적 계층적 시각-언어 탐색 | 연구 논문 | HyperAI초신경