3 个月前

多模态表征

计算机视觉

计算机视觉

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

摘要

人类通过多感官协同学习抽象概念，一旦形成，这些表征往往仅凭单一模态即可被唤起。受此原理启发，我们提出Concerto——一种用于空间认知的极简人类概念学习模拟模型，其结合了3D域内自蒸馏（intra-modal self-distillation）与2D-3D跨模态联合嵌入（cross-modal joint embedding）。尽管结构简单，Concerto仍能学习到更具连贯性与信息量的空间特征，这一能力在零样本可视化中得到验证。在3D场景感知的线性探测（linear probing）任务中，Concerto分别比独立的SOTA 2D与3D自监督模型提升14.2%和4.8%，并优于两者的特征拼接（feature concatenation）。在全量微调（full fine-tuning）设置下，Concerto在多个场景理解基准测试中取得新的SOTA性能（例如，在ScanNet数据集上达到80.7%的mIoU）。我们进一步提出Concerto的一个变体，专用于视频重建点云的空间理解；同时设计了一种线性投影转换器（translator），可将Concerto的表征映射至CLIP的语言空间，从而实现开放世界感知（open-world perception）。这些结果表明，Concerto能够生成具有更优细粒度几何一致性和语义一致性的空间表征。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

多模态表征

计算机视觉

计算机视觉

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

摘要

人类通过多感官协同学习抽象概念，一旦形成，这些表征往往仅凭单一模态即可被唤起。受此原理启发，我们提出Concerto——一种用于空间认知的极简人类概念学习模拟模型，其结合了3D域内自蒸馏（intra-modal self-distillation）与2D-3D跨模态联合嵌入（cross-modal joint embedding）。尽管结构简单，Concerto仍能学习到更具连贯性与信息量的空间特征，这一能力在零样本可视化中得到验证。在3D场景感知的线性探测（linear probing）任务中，Concerto分别比独立的SOTA 2D与3D自监督模型提升14.2%和4.8%，并优于两者的特征拼接（feature concatenation）。在全量微调（full fine-tuning）设置下，Concerto在多个场景理解基准测试中取得新的SOTA性能（例如，在ScanNet数据集上达到80.7%的mIoU）。我们进一步提出Concerto的一个变体，专用于视频重建点云的空间理解；同时设计了一种线性投影转换器（translator），可将Concerto的表征映射至CLIP的语言空间，从而实现开放世界感知（open-world perception）。这些结果表明，Concerto能够生成具有更优细粒度几何一致性和语义一致性的空间表征。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供