Command Palette

Search for a command to run...

7 天前

Concerto:联合2D-3D自监督学习涌现空间表征

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

Concerto:联合2D-3D自监督学习涌现空间表征

摘要

人类通过多感官协同学习抽象概念,一旦形成,这些表征往往仅凭单一模态即可被唤起。受此原理启发,我们提出Concerto——一种用于空间认知的极简人类概念学习模拟模型,其结合了3D域内自蒸馏(intra-modal self-distillation)与2D-3D跨模态联合嵌入(cross-modal joint embedding)。尽管结构简单,Concerto仍能学习到更具连贯性与信息量的空间特征,这一能力在零样本可视化中得到验证。在3D场景感知的线性探测(linear probing)任务中,Concerto分别比独立的SOTA 2D与3D自监督模型提升14.2%和4.8%,并优于两者的特征拼接(feature concatenation)。在全量微调(full fine-tuning)设置下,Concerto在多个场景理解基准测试中取得新的SOTA性能(例如,在ScanNet数据集上达到80.7%的mIoU)。我们进一步提出Concerto的一个变体,专用于视频重建点云的空间理解;同时设计了一种线性投影转换器(translator),可将Concerto的表征映射至CLIP的语言空间,从而实现开放世界感知(open-world perception)。这些结果表明,Concerto能够生成具有更优细粒度几何一致性和语义一致性的空间表征。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供