19 天前
Meta-Explore:基于场景物体谱系接地的探索性分层视觉-语言导航
Minyoung Hwang, Jaeyeon Jeong, Minsoo Kim, Yoonseon Oh, Songhwai Oh

摘要
视觉-语言导航(Vision-and-Language Navigation, VLN)的主要挑战在于如何在未见过的环境中理解自然语言指令。传统VLN算法的主要局限在于:一旦代理执行了错误动作,便难以继续遵循指令,或会探索无关区域,从而陷入不可挽回的路径。为解决这一问题,我们提出Meta-Explore,一种分层导航方法,通过引入一种利用策略(exploitation policy)来纠正先前误判的动作。我们证明,相较于引导代理返回已访问过状态的方法,一种将代理导向未访问但可观察状态中经过精心选择的局部目标的利用策略,能够显著提升导航性能。此外,我们强调了在导航过程中对具有语义意义线索的“后悔式探索”进行想象的重要性。本方法的核心在于在频谱域中理解代理周围物体的分布特征。具体而言,我们提出一种新型视觉表征——场景物体频谱(Scene Object Spectrum, SOS),该方法对检测到的物体进行类别相关的二维傅里叶变换,从而提取出具有语义意义的空间结构信息。结合利用策略与SOS特征,代理能够通过选择具有前景的局部目标,有效修正自身路径。我们在三个主流VLN基准测试(R2R、SOON和REVERIE)上对所提方法进行了评估,结果表明Meta-Explore显著优于现有基线方法,并展现出优异的泛化能力。特别是在SOON基准上,利用所提出的频谱域SOS特征进行局部目标搜索,使任务成功率(Success Rate)提升17.1%,SPL(Success Rate × Path Length)提升20.6%。