8 个月前

摘要

本文介绍了ShapeLLM，首个为具身交互设计的三维多模态大语言模型（LLM），探索了通过三维点云和语言实现的通用三维物体理解。ShapeLLM基于改进的三维编码器构建，该编码器通过扩展ReCon至ReCon++，利用多视角图像蒸馏技术增强了几何理解能力。通过使用ReCon++作为大语言模型的三维点云输入编码器，ShapeLLM在构造的指令跟随数据上进行训练，并在我们新的人工整理基准测试集3D MM-Vet上进行了测试。ReCon++和ShapeLLM在三维几何理解和语言统一的三维交互任务（如具身视觉定位）中达到了最先进的性能。项目页面：https://qizekun.github.io/shapellm/

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma

摘要

本文介绍了ShapeLLM，首个为具身交互设计的三维多模态大语言模型（LLM），探索了通过三维点云和语言实现的通用三维物体理解。ShapeLLM基于改进的三维编码器构建，该编码器通过扩展ReCon至ReCon++，利用多视角图像蒸馏技术增强了几何理解能力。通过使用ReCon++作为大语言模型的三维点云输入编码器，ShapeLLM在构造的指令跟随数据上进行训练，并在我们新的人工整理基准测试集3D MM-Vet上进行了测试。ReCon++和ShapeLLM在三维几何理解和语言统一的三维交互任务（如具身视觉定位）中达到了最先进的性能。项目页面：https://qizekun.github.io/shapellm/

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

ShapeLLM：面向实体交互的通用3D物体理解

Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ShapeLLM：面向实体交互的通用3D物体理解

Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ShapeLLM：面向实体交互的通用3D物体理解

Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma

摘要

用 AI 构建 AI

HyperAI Newsletters