Command Palette

Search for a command to run...

3 天前

基于多模态基础模型的时空智能扩展

基于多模态基础模型的时空智能扩展

摘要

尽管取得了显著进展,多模态基础模型在空间智能方面仍表现出令人意外的不足。在本研究中,我们通过扩展多模态基础模型,致力于在“星环-SI”(SenseNova-SI)系列中培育强大的空间智能能力。该系列建立在已有的多模态基础模型之上,包括视觉理解模型(如Qwen3-VL和InternVL3)以及统一理解与生成模型(如Bagel)。我们采用系统化的方法,通过精心构建一个严格分类的空间能力体系,构建了SenseNova-SI-8M:包含八百万条多样化数据样本的高质量数据集,以支撑高性能且鲁棒的空间智能模型训练。SenseNova-SI在一系列广泛的空间智能基准测试中展现出前所未有的优异表现:在VSI-Bench上达到68.7%,在MMSI上达到43.3%,在MindCube上达到85.6%,在ViewSpatial上达到54.6%,在SITE上达到50.1%;同时在多模态通用理解任务上也保持了强劲性能(例如在MMBench-En上达到84.9%)。更重要的是,我们系统分析了数据规模扩展的影响,探讨了由多样化数据训练所引发的早期涌现式泛化能力迹象,深入研究了过拟合与语言捷径(language shortcuts)的风险,并初步探索了空间链式思维(spatial chain-of-thought reasoning)的潜力,同时验证了其在下游任务中的应用前景。SenseNova-SI项目仍在持续推进中,本报告将不断更新。所有新训练完成的多模态基础模型均将公开发布,以推动该方向的进一步研究。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供