HyperAIHyperAI

Command Palette

Search for a command to run...

UltraShape 1.0:通过可扩展几何精炼实现高保真3D形状生成

Abstract

在本报告中,我们介绍了UltraShape 1.0,这是一种可扩展的3D扩散框架,用于生成高保真度的3D几何结构。所提出的方案采用两阶段生成流程:首先合成粗略的全局结构,随后进行精细化处理,以生成细节丰富、高质量的几何形态。为支持可靠的3D生成,我们构建了一套完整的数据处理流水线,其中包括一种新颖的封闭(watertight)处理方法以及高质量数据筛选机制。该流水线通过剔除低质量样本、填补孔洞并增强细长结构的厚度,显著提升了公开可用3D数据集的几何质量,同时有效保留了精细的几何细节。为实现细粒度的几何优化,我们在扩散过程中将空间定位与几何细节生成解耦。具体而言,我们在固定的三维体素(voxel)空间位置上执行基于体素的精细化操作,利用粗略几何结构生成的体素查询作为显式位置锚点,并通过旋转位置编码(RoPE)进行编码,从而使扩散模型能够聚焦于在受限且结构化的解空间内合成局部几何细节。我们的模型仅在公开可用的3D数据集上进行训练,在训练资源有限的情况下仍取得了优异的几何质量表现。大量实验评估表明,UltraShape 1.0在数据处理质量和几何生成性能方面均具备与现有开源方法相媲美的竞争力。所有代码及训练好的模型将公开发布,以支持后续研究工作。

一句话总结

北京大学、香港科大(广州)、香港科大、新加坡国立大学和台湾大学的作者提出 UltraShape 1.0,这是一种可扩展的3D扩散框架,通过在固定位置使用RoPE编码的体素查询,将空间定位与细节合成解耦,实现在结构化解空间内的细粒度几何优化,仅使用公开数据集即可实现高保真3D生成,无需专有数据。

主要贡献

  • UltraShape 1.0 通过引入两阶段扩散框架,解决了可扩展、高保真3D几何生成的挑战:首先合成粗略的全局结构,再通过细节几何进行精细化,克服了现有方法在分辨率和细粒度细节建模方面的局限性。
  • 该方法通过在固定空间位置进行基于体素的细化,将空间定位与几何细节合成解耦,利用来自粗略几何的RoPE编码位置锚点,引导扩散过程在结构化、降维的解空间内进行。
  • 提出一种新型的封闭几何数据处理流程,通过移除低质量样本、填补孔洞、加厚细结构,同时保留精细细节,显著提升公开3D数据集的质量;UltraShape 1.0 在基准数据集上实现了与最先进开源及商业方法相媲美的性能。

引言

3D内容生成在娱乐、游戏、机器人和工业设计等应用中至关重要,但生成高保真、可扩展的3D几何结构仍面临挑战,主要受限于高质量数据的稀缺性以及3D表示的计算开销。以往方法在处理非封闭输入时存在局限,常出现双层表面、部件缺失等几何伪影,且在可扩展性和细粒度细节保留方面表现不佳——尤其当使用密集体素网格或向量集表示时,要么缺乏空间分辨率,要么带来难以承受的内存成本。作者提出 UltraShape 1.0,一种两阶段扩散框架,结合稳健的数据清洗与可扩展的生成流程。该框架采用新颖的封闭几何处理策略,解决拓扑歧义,确保训练数据的清洁与高质量;同时采用从粗到精的方法,结合体素条件扩散,实现稳定、细粒度的优化。通过在结构化体素查询中解耦空间定位与几何细节合成,UltraShape 1.0 实现了卓越的几何保真度与可扩展性,有效解决了现有3D生成方法中的关键瓶颈。

数据集

  • 数据集基于从 Objaverse 中筛选出的 12 万张样本构建,作为训练与评估的主要来源。
  • 每个物体在网格表面均匀采样约 60 万点,高曲率区域采样密度更高,以保留精细几何细节;这些点作为 VAE 编码器的输入。
  • 每个物体的监督点总数约为 100 万,包括:靠近表面的均匀采样点、基于曲率感知的锐利点,以及自由空间中的随机采样点;所有监督点均计算其有符号距离函数(SDF)值,用于定义重建损失。
  • 图像渲染使用 Blender 的 Cycles 渲染器,采用正交投影,每物体生成 16 张图像:8 张来自近前视点,8 张来自随机采样视角,以确保视角多样性。
  • 所有图像均以 1024×1024 分辨率渲染,渲染过程中随机选择环境贴图以增强光照条件,提升视觉鲁棒性。
  • 用于细化的 VAE 初始权重来自 Hunyuan3D-2.1,并在 [-1/128, 1/128] 范围内施加均匀查询扰动,进行 55K 步微调。训练分为两个阶段:前 40K 步使用 4096 个 token,随后 15K 步使用 8192 个 token,以提升稳定性并支持更高 token 数量。
  • 几何细化所用的扩散变换器(DiT)同样从 Hunyuan3D-2.1 初始化,并采用渐进式多阶段策略在该数据集上训练:首先在 518 分辨率下使用 4096 个 token 训练 10K 步,然后在 1022 分辨率下使用 8192 个 token 训练 15K 步,最后在 1022 分辨率下使用 10240 个 token 训练 60K 步。
  • 训练在 8 块 NVIDIA H20 GPU 上进行,训练与推理均采用 128 分辨率的体素。
  • 推理阶段使用 32,768 个 token 和 1022×1022 图像分辨率,除非另有说明,否则应用 token 掩码。
  • 作者强调,高质量的输入 RGBA 图像至关重要——准确的前景分割和无阴影的干净背景是避免生成几何退化的关键,凸显了图像条件3D生成中稳健图像预处理的重要性。

方法

作者采用两阶段从粗到精的框架进行3D几何生成,旨在平衡全局结构一致性与细粒度几何细节合成。该方法首先生成粗略的全局形状,再进行精细化,以实现高保真几何输出。整体流程如框架图所示,展示了从输入图像 token 经过两个生成阶段的演进过程。

第一阶段中,模型生成物体整体结构的粗略表示。该过程基于 DiT 的3D生成模型,操作于向量集表示,提供一种紧凑且表达力强的全局物体几何编码。该阶段输出为粗略网格,作为后续细化阶段的语义有意义的几何先验。随后,该粗略网格被体素化并采样,生成用于细化过程的体素查询,定义固定的空位置。

第二阶段聚焦于几何细节的精细化。为解决基于向量集方法的局限性——这些方法常因大而无序的潜在空间以及位置与几何信息的耦合,难以处理细粒度细节——作者将空间定位与几何细节合成解耦。这一目标通过在固定分辨率网格上对体素查询进行基于扩散的细化来实现。粗略几何为细化过程提供显式空间锚点,体素查询由粗略形状生成,定义固定空间位置。这些坐标通过旋转位置编码(RoPE)进行编码,将空间信息注入每一层模型。通过显式指定空间定位,扩散模型能够专注于合成局部几何细节,而非同时建模全局定位与形状,从而提升收敛性并实现更精细的几何优化。

为支持基于体素的细化,形状 VAE 被扩展以在非表面位置解码几何。训练期间,表面查询通过有界空间扰动进行增强,使解码器能够预测有效的体素几何。推理时,从粗略几何采样的体素查询与潜在 token 对齐,并通过扩散过程进行细化。去噪后的潜在表示在规则网格上解码为 SDF 场,最终通过等值面提取(marching cubes)获得表面。细化阶段采用具有潜在 token 自注意力的 DiT 架构,图像条件通过 DINOv2 特征引入交叉注意力。采用图像 token 掩码策略以抑制无关背景信息,确保几何细化的鲁棒性与语义一致性。

实验

  • 评估了模型在推理时的可扩展性,表明增加潜在 token 数量可提升重建质量,实现高保真几何重建。
  • 与开源最先进方法相比,展示了优越的3D生成性能,生成具有高细节、锐利边缘且与输入条件图像高度对齐的几何结构。
  • 尽管仅在公开数据和有限资源上训练,仍达到了与商业3D模型相当的生成质量,展现出强大的竞争力。
  • 在几何生成中,DiT 的推理时可扩展性表现良好,推理过程中增加形状与图像 token 数量显著提升了几何细节与表面质量。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供