Command Palette
Search for a command to run...
Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

摘要
人类通过多感官协同学习抽象概念,一旦形成,这些表征往往仅凭单一模态即可被唤起。受此原理启发,我们提出Concerto——一种用于空间认知的极简人类概念学习模拟模型,其结合了3D域内自蒸馏(intra-modal self-distillation)与2D-3D跨模态联合嵌入(cross-modal joint embedding)。尽管结构简单,Concerto仍能学习到更具连贯性与信息量的空间特征,这一能力在零样本可视化中得到验证。在3D场景感知的线性探测(linear probing)任务中,Concerto分别比独立的SOTA 2D与3D自监督模型提升14.2%和4.8%,并优于两者的特征拼接(feature concatenation)。在全量微调(full fine-tuning)设置下,Concerto在多个场景理解基准测试中取得新的SOTA性能(例如,在ScanNet数据集上达到80.7%的mIoU)。我们进一步提出Concerto的一个变体,专用于视频重建点云的空间理解;同时设计了一种线性投影转换器(translator),可将Concerto的表征映射至CLIP的语言空间,从而实现开放世界感知(open-world perception)。这些结果表明,Concerto能够生成具有更优细粒度几何一致性和语义一致性的空间表征。