Command Palette
Search for a command to run...
MapTrace:面向地图路径追踪的可扩展数据生成
MapTrace:面向地图路径追踪的可扩展数据生成
Artemis Panagopoulou Aveek Purohit Achin Kulshrestha Soroosh Yazdani Mohit Goyal
Abstract
尽管多模态大语言模型在诸多视觉与文本推理任务上已达到接近人类的性能水平,但在细粒度空间理解方面,例如在地图上进行路径追踪,其能力仍十分有限。与人类能够快速掌握地图解析与导航不同,当前模型往往无法遵守基本的路径约束,部分原因在于大规模、像素级精确路径标注的收集成本过高且难度极大。为解决这一问题,我们提出了一种可扩展的合成数据生成流程,该流程利用合成地图图像与像素级语义解析,自动生成该任务所需的高精度标注。基于此流程,我们构建了一个包含4,000张地图、23,000条路径样本的微调数据集,使模型能够习得更接近人类的空间理解能力。利用该数据集,我们对开源与专有两类多模态大语言模型进行了微调。在MapBench基准测试中,微调显著提升了模型的鲁棒性,成功率达最高提升6.4个百分点,同时有效降低了路径追踪误差(NDTW)。这些结果表明,预训练模型中缺失的细粒度空间推理能力,可通过合成监督的方式被显式地教授。