HyperAIHyperAI

Command Palette

Search for a command to run...

ARKit LabelMaker:室内3D场景理解的新尺度

Guangda Ji Silvan Weder Francis Engelmann Marc Pollefeys Hermann Blum

摘要

神经网络的性能与其规模和训练数据量密切相关。这一点在语言生成和图像生成中均得到了体现。然而,这需要具备可扩展性的网络架构以及大规模的数据集。尽管已经为3D视觉任务开发了如 Transformer (transformers)等可扩展架构,但由于缺乏训练数据,3D视觉领域的GPT时刻仍遥不可及。本文中,我们介绍了ARKit LabelMaker,这是首个具有密集语义注释的大规模真实世界3D数据集。具体而言,我们在ARKitScenes数据集的基础上增加了自动大规模生成的密集语义注释。为此,我们将LabelMaker这一最近的自动注释管道进行了扩展,以满足大规模预训练的需求。这包括引入前沿的分割模型,并使其能够应对大规模处理中的各种挑战。此外,我们通过现有的3D语义分割模型,在ScanNet和ScanNet200数据集上取得了最新的最佳性能,证明了我们生成的数据集的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供