2 个月前
DiT-3D:探索用于3D形状生成的纯扩散变换器
Mo, Shentong ; Xie, Enze ; Chu, Ruihang ; Yao, Lewei ; Hong, Lanqing ; Nießner, Matthias ; Li, Zhenguo

摘要
近期的扩散变换器(例如DiT)在生成高质量2D图像方面展示了其强大的有效性。然而,变换器架构在3D形状生成中的表现是否同样出色仍有待确定,因为之前的3D扩散方法大多采用了U-Net架构。为了弥补这一差距,我们提出了一种新的用于3D形状生成的扩散变换器,即DiT-3D,该模型可以直接使用普通的变换器对体素化的点云进行去噪处理。与现有的U-Net方法相比,我们的DiT-3D在模型规模上更具可扩展性,并且生成的质量更高。具体而言,DiT-3D采用了DiT的设计理念,但通过引入3D位置嵌入和补丁嵌入来适应性地聚合来自体素化点云的输入。为了降低3D形状生成中自注意力机制的计算成本,我们在变换器块中加入了3D窗口注意力机制,因为体素带来的额外维度会导致3D标记长度增加,从而导致高计算量。最后,线性和反体素化层被用来预测去噪后的点云。此外,我们的变换器架构支持从2D到3D的有效微调,在ImageNet上预训练的DiT-2D检查点可以显著提升ShapeNet上的DiT-3D性能。实验结果表明,在ShapeNet数据集上,所提出的DiT-3D在高保真度和多样性的3D点云生成方面达到了最先进的水平。特别是,在基于Chamfer距离评估时,我们的DiT-3D将最先进方法的1-最近邻准确率降低了4.59,并将覆盖率指标提高了3.51。