HyperAI超神经
16 days ago

OST-Bench:评估多模态大语言模型在在线时空场景理解中的能力

JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
OST-Bench:评估多模态大语言模型在在线时空场景理解中的能力
摘要

近期在多模态大语言模型(MLLMs)领域的进展展示了其在整合视觉和语言进行复杂推理方面的显著能力。然而,大多数现有的基准测试是在离线环境下进行的,使用固定的一组预先录制的输入数据来评估模型。为此,我们引入了OST-Bench,这是一个旨在从主动探索场景的代理视角评估在线时空理解的基准测试。在线方面强调了对逐步获取的观察结果进行处理和推理的需求,而时空组件则要求将当前的视觉输入与历史记忆相结合,以支持动态的空间推理。OST-Bench 更好地反映了现实世界中具身感知所面临的挑战。该基准测试基于高效的 数据收集管道构建,包含从ScanNet、Matterport3D 和 ARKitScenes 收集的1.4万个场景和1万个问题-答案对。我们在OST-Bench上评估了几种领先的MLLMs,并观察到这些模型在需要复杂时空推理的任务上表现不佳。在在线设置下,随着探索范围的扩大和记忆的增长,它们的准确性逐渐下降。通过进一步的实验分析,我们识别出跨模型的常见错误模式,并发现复杂的线索基础空间推理需求和长期记忆检索需求分别显著降低了模型性能,突显了必须解决的核心挑战以改进在线具身推理。为了促进该领域的进一步研究和发展,我们已公开代码、数据集和基准测试。项目页面为:https://rbler1234.github.io/OSTBench.github.io/