HyperAIHyperAI

Command Palette

Search for a command to run...

自编码器作为跨模态教师:预训练的2D图像变换器能否助力3D表征学习?

Runpei Dong Zekun Qi Linfeng Zhang Junbo Zhang Jianjian Sun Zheng Ge Li Yi Kaisheng Ma

摘要

深度学习的成功在很大程度上依赖于具有全面标签的大规模数据集,而在三维(3D)领域获取这些数据比二维图像或自然语言更为昂贵且耗时。这促进了利用预训练模型作为跨模态知识传递教师的潜力。本文中,我们以知识蒸馏的统一方式重新审视了掩码建模,并展示了通过训练自动编码器作为跨模态教师(ACT),可以利用预训练的二维图像或自然语言基础Transformer来帮助自监督的三维表示学习。在此过程中,预训练的Transformer通过离散变分自动编码自监督方法转换为跨模态3D教师,同时通过提示调优冻结这些Transformer以实现更好的知识传承。由3D教师编码的潜在特征被用作掩码点建模的目标,在此过程中,暗知识被蒸馏到3D Transformer学生中,形成基础几何理解。我们的ACT预训练3D学习器在多个下游基准测试中表现出最先进的泛化能力,例如在ScanObjectNN上的总体准确率达到88.21%。代码已发布在https://github.com/RunpeiDong/ACT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自编码器作为跨模态教师:预训练的2D图像变换器能否助力3D表征学习? | 论文 | HyperAI超神经