6 个月前

多任务学习

计算机视觉

David Rozenberszki Or Litany Angela Dai

摘要

近年来，基于深度神经网络的3D语义分割取得了显著进展，在现有数据集上的性能迅速提升。然而，当前的3D语义分割基准测试所包含的类别数量仍然有限——例如，ScanNet和SemanticKITTI数据集的类别均不足30个，难以充分反映真实环境的多样性（例如，语义图像理解通常涵盖数百至数千个类别）。为此，我们提出在ScanNet数据集基础上构建一个扩展的新基准，涵盖200个类别，类别数量较以往研究提升了近一个数量级。这一大规模类别设置也带来了显著的自然类别不平衡问题，对现有3D语义分割方法构成了严峻挑战。为在该背景下学习更具鲁棒性的3D特征，我们提出一种基于语言驱动的预训练方法，旨在促使那些训练样本稀缺的类别所对应的3D特征，能够靠近其预训练的文本嵌入表示。大量实验表明，我们的方法在所提出的基准上显著优于当前最先进的3D预训练方法，整体性能提升达9%（相对mIoU），在标注数据极为有限的场景下（仅使用5%标注数据），仍可实现25%的相对mIoU提升，充分验证了方法的有效性与泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

计算机视觉

David Rozenberszki Or Litany Angela Dai

摘要

近年来，基于深度神经网络的3D语义分割取得了显著进展，在现有数据集上的性能迅速提升。然而，当前的3D语义分割基准测试所包含的类别数量仍然有限——例如，ScanNet和SemanticKITTI数据集的类别均不足30个，难以充分反映真实环境的多样性（例如，语义图像理解通常涵盖数百至数千个类别）。为此，我们提出在ScanNet数据集基础上构建一个扩展的新基准，涵盖200个类别，类别数量较以往研究提升了近一个数量级。这一大规模类别设置也带来了显著的自然类别不平衡问题，对现有3D语义分割方法构成了严峻挑战。为在该背景下学习更具鲁棒性的3D特征，我们提出一种基于语言驱动的预训练方法，旨在促使那些训练样本稀缺的类别所对应的3D特征，能够靠近其预训练的文本嵌入表示。大量实验表明，我们的方法在所提出的基准上显著优于当前最先进的3D预训练方法，整体性能提升达9%（相对mIoU），在标注数据极为有限的场景下（仅使用5%标注数据），仍可实现25%的相对mIoU提升，充分验证了方法的有效性与泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

语言引导的野外室内3D语义分割 | 论文 | HyperAI超神经