日期

2 年前

大小

5.34 GB

数据集组织

发布 URL

vision-x-nyu.github.io

论文 URL

arxiv.org

标签

多模态

VSI-Bench（全称为 Visual-Spatial Intelligence Benchmark）是由李飞飞、谢赛宁及其研究团队于 2024 年推出的视觉空间智能基准测试集，旨在评估多模态大型语言模型 (MLLMs) 在空间认知和理解方面的能力，相关论文成果为「Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces」。该数据集包含超过 5k 个问题-答案对，覆盖近 290 个真实室内场景视频，涉及住宅、办公室和工厂等多种环境，涵盖了物体识别、位置关系、动作预测等多个方面的问题。这种多样化的数据结构不仅有助于训练更加鲁棒的模型，也为开发者们提供了丰富的资源用于算法验证和优化。