
摘要
近期基础模型的发展增强了人工智能系统在自主工具使用和推理方面的能力。然而,这些模型在基于位置或地图的推理能力上——这种能力通过优化导航、促进资源发现和简化物流来改善日常生活——尚未得到系统的研究。为了填补这一空白,我们引入了MapEval,这是一个旨在评估涉及地理空间推理的多样化和复杂地图用户查询的基准测试。MapEval 包含三种任务类型(文本型、API 基础型和视觉型),要求通过地图工具收集世界信息,处理异构地理空间上下文(例如命名实体、旅行距离、用户评论或评分、图像),并进行组合推理,这些都是当前最先进的基础模型所面临的挑战。MapEval 包含了关于180个城市和54个国家的700个独特多选题,用于评估基础模型处理空间关系、地图信息图、旅行规划和导航难题的能力。利用 MapEval,我们对28个知名的基础模型进行了全面评估。尽管没有一个模型在所有任务中表现出色,但 Claude-3.5-Sonnet、GPT-4o 和 Gemini-1.5-Pro 在整体性能上表现优异。然而,在 MapEval 中仍出现了显著的性能差距,特别是在该基准测试中,使用 Claude-3.5-Sonnet 的代理分别比 GPT-4o 和 Gemini-1.5-Pro 高出16%和21%,而与开源大语言模型相比,这些差距变得更加明显。我们的详细分析揭示了当前模型的优势和劣势,尽管如此,所有模型在平均性能上仍比人类低20%以上,在处理复杂的地图图像和严格的地理空间推理时尤为困难。这一差距突显了 MapEval 在推动具有更强地理空间理解能力的一般用途基础模型发展中的关键作用。