2 个月前
VoxFormer:基于相机的稀疏体素Transformer用于3D语义场景补全
Li, Yiming ; Yu, Zhiding ; Choy, Christopher ; Xiao, Chaowei ; Alvarez, Jose M. ; Fidler, Sanja ; Feng, Chen ; Anandkumar, Anima

摘要
人类可以轻松想象被遮挡物体和场景的完整三维几何结构。这种迷人的能力对于识别和理解至关重要。为了在人工智能系统中实现这一功能,我们提出了VoxFormer,这是一种基于Transformer的语义场景补全框架,可以从仅有的二维图像输出完整的三维体素语义。我们的框架采用了两阶段设计,首先从深度估计中获取一组稀疏的可见和占用体素查询,然后通过一个稠密化阶段从这些稀疏体素生成密集的三维体素。该设计的一个关键思想是,二维图像上的视觉特征仅对应于可见的场景结构,而不是被遮挡或空旷的空间。因此,从可见结构的特征化和预测开始更为可靠。一旦获得这组稀疏查询,我们应用一种掩码自编码器设计,通过自注意力机制将信息传播到所有体素。在SemanticKITTI数据集上的实验表明,VoxFormer在几何方面相对提升了20.0%,在语义方面相对提升了18.1%,并且在训练过程中将GPU内存消耗降低至16GB以下。我们的代码已发布在 https://github.com/NVlabs/VoxFormer。