15 天前

视觉与语言导航在未见室外场景中的泛化能力分析

Raphael Schumann, Stefan Riezler
视觉与语言导航在未见室外场景中的泛化能力分析
摘要

视觉与语言导航(Vision and Language Navigation, VLN)是一项具有挑战性的视觉 grounded 语言理解任务。给定一条自然语言导航指令,视觉智能体需在基于图结构的环境中与全景图像进行交互,以遵循描述的路径。以往多数研究集中于室内场景,其最佳性能仅在与训练路径相似的路线中取得,而在未见环境上测试时,性能显著下降。本文聚焦于室外场景下的VLN任务,发现与室内VLN不同,室外VLN在未见数据上的性能提升主要依赖于特定于环境图结构的特征,如路口类型嵌入(junction type embedding)或朝向变化量(heading delta),而图像信息在将VLN泛化至未见室外区域时所起作用极为有限。这些发现揭示了当前方法对城市环境图表示细节的显著偏好,提示VLN任务亟需在地理环境的规模与多样性方面进一步拓展。

视觉与语言导航在未见室外场景中的泛化能力分析 | 最新论文 | HyperAI超神经