HyperAI超神经

一句话总结

TripoSG 提出了一种精简的扩散框架，该框架利用在海量高质量数据上训练的大规模整流流 Transformer，生成与输入图像具有精确对应关系的高保真 3D 网格，从而实现最先进的保真度。

核心贡献

TripoSG 提出了一种精简的形状扩散范式，利用大规模整流流 Transformer 生成与输入图像精确对齐的 3D 网格。
该框架采用具有几何表达能力的 3D 表示方法，并结合改进的扩散架构与训练策略，以解决此前在条件对齐和泛化能力方面的局限。
该方法在海量高质量 3D 数据集上进行训练，在合成带纹理和无纹理形状时，均实现了最先进的保真度与强大的泛化能力。

引言

对可直接投入生产的 3D 内容的需求不断增长，使得高保真形状合成成为生成式 AI 的关键前沿领域，但该领域的进展仍落后于 2D 图像和视频生成的快速发展。现有方法面临显著挑战：基于重建的方法常受视角不一致和遮挡伪影的影响；而基于扩散的技术依赖于占用表示，这会引入锯齿伪影，缺乏精细几何细节，且难以使输出与输入图像对齐。这些质量问题因精心策划的 3D 数据集严重短缺而进一步加剧，迫使采用激进的过滤策略，从而大幅缩减训练规模。为弥补这一差距，作者提出了 TripoSG，这是一种精简的生成框架，利用在 200 万个精心处理的 3D 样本上训练的大规模整流流 Transformer。通过将 Transformer 与融合符号距离函数、表面法线和 Eikonal 损失的混合监督 VAE 策略相结合，该模型在图像到 3D 的合成任务中实现了卓越的几何重建、出色的输入对齐以及最先进的保真度。

数据集

数据集构成与来源： 作者主要基于 Objaverse(-XL) 和 ShapeNet 构建训练语料库，初始池包含从公开互联网来源收集的约 1000 万个 3D 模型。
质量控制与过滤规则： 为解决数据质量不一致的问题，团队实施了一个四阶段预处理流程。使用在 CLIP 和 DINOv2 特征上训练的评分模型，通过多视图法线图对模型进行排序。通过审核的模型随后会经过严格过滤，移除具有大型平面基底、动画渲染错误以及多个不相连对象的资产。
最终数据集规模： 应用这些质量控制标准后，作者整理出包含 200 万个高质量 3D 对象的最终训练集合。
朝向修正与增强： 角色模型通过基于 DINOv2 的朝向估计器（在 24 个旋转姿态上训练）自动对齐至朝前方向。对于无纹理资产，作者渲染多视图法线图，并利用 ControlNet++ 合成对应的 RGB 图像，这些图像在训练期间作为条件输入。
几何处理与场构建： 为支持神经隐式场训练，非封闭网格被转换为封闭表示。作者生成 512³ 无符号距离函数（UDF）网格，清除不可见体素值，并使用阈值为 3/512 的 Marching Cubes 算法提取表面。利用面积和环境遮挡指标修剪小型内部组件，随后对表面法线和体积点进行均匀采样。
训练配置与相机参数： 整理后的数据集用于训练 TripoSG 流模型。针对单图像条件输入，作者渲染位于每个对象前方的 8 个随机视角。相机参数在仰角 -15° 至 30°、方位角 0° 至 180° 范围内随机化，焦距从正交、50mm、85mm、135mm 或 35mm 至 65mm 之间随机选取的两个值中确定。基于采样点计算真实符号距离函数，以监督几何学习。

方法

TripoSG 框架围绕专为图像条件 3D 形状生成设计的整流流 Transformer 架构构建。如图所示的整体系统包含数据构建流程、用于将 3D 形状编码和解码为潜在表示的变分自编码器（VAE），以及根据输入图像生成新 3D 形状的流模型。如图所示的 VAE 基于一组表面点运行，生成多尺度 latent tokens，随后由流模型处理以生成最终 3D 几何结构。

生成过程的核心是整流流 Transformer，其构建基础是受 DiT 和 3DShape2VecSet 启发的 Transformer 架构。该模型的主干采用带有中央块的编码器-解码器结构，共形成 $2N+1$ 个带有残差连接的 Transformer 块。该设计在对应的编码器块和解码器块之间引入了长跳跃残差连接，以增强特征融合与表征能力。架构在编码器和解码器中均使用 $N=10$ 个块，隐藏维度 $W=2048$ ，每块包含 16 个注意力头，模型参数量约为 15 亿。流架构旨在处理维度为 $L \times C$ 的潜在表示 $X$ ，其中 $L \in \{512, 2048\}$ 且 $C=64$ ，这些表示由 VAE 进行编码和解码。生成过程同时接受时间步和输入图像的条件控制。时间步 $t$ 通过 Timesteps 层和 MLP 编码为 $1 \times W$ 特征，而潜在表示 $X$ 被投影为 $L \times W$ 特征。这些特征拼接后形成 $(L+1) \times W$ 的输入，供给流模型主干。

针对图像条件输入，模型采用双注意力机制注入全局与局部图像特征。全局特征 $I_{\text{global}}$ 从 CLIP-ViT-L/14 中提取，局部特征 $I_{\text{local}}$ 从 DINOv2-Large 中提取。这些特征通过独立的交叉注意力机制注入每个流块，使模型能够同时关注全局上下文与细粒度细节。该方法有助于加快训练收敛速度，并增强生成 3D 形状与输入图像之间的一致性。每个块内的处理遵循一系列操作：拼接输入潜在特征与时间步特征、应用自注意力、融合全局与局部图像特征的交叉注意力，以及应用前馈网络，所有操作均配合层归一化与残差连接。

生成过程由整流流模型驱动，该模型学习从噪声到数据的线性轨迹，相较于 DDPM 和 EDM 的曲线轨迹，简化了训练过程。这种线性方法效率更高且更稳定，并通过 Logit-Normal 采样增强训练期间中间步骤的权重。为处理更高分辨率，模型采用依赖分辨率的时间步偏移策略，重新映射时间步以在不同分辨率下保持一致的不确定性水平。这使得模型能够在无需重新训练的情况下有效扩展至更高分辨率。

为扩展模型规模并提升性能，TripoSG 采用了混合专家（MoE）策略。该策略将 Transformer 块中的前馈网络（FFN）替换为多个并行专家模型，由门控模块控制，为每个 token 选择 Top-K 个专家。MoE 架构应用于解码器的最后六层，此处深度特征建模至关重要。由于专家激活的稀疏性，参数规模从 15 亿扩展至约 40 亿的同时，推理延迟几乎保持不变。MoE 设计包含跨所有 token 的共享专家分支以及用于平衡专家路由的辅助损失，确保扩展的高效性与有效性。

如图所示的 VAE 架构采用基于 Transformer 的编码器-解码器结构。编码器处理表面点的密集点云，利用交叉注意力将位置嵌入和表面法线融合至潜在查询中。解码器随后使用这些 latent tokens 预测 3D 空间中查询点的符号距离函数（SDF）值。模型采用神经 SDF 作为主要表示形式，相较于基于占用的方法，能够提供更精确、更精细的几何结构，并避免锯齿伪影。为进一步提升几何细节，VAE 训练引入了表面法线引导与 Eikonal 正则化。总 VAE 损失函数由 SDF 损失、表面法线损失、Eikonal 正则化以及潜在空间的 KL 正则化组合而成。这种全面的监督机制确保模型学习到细粒度的几何细节，从而实现高质量的 3D 重建。

实验

评估设置通过定性可视化与定量分析，在多样化且复杂的输入上对 TripoSG 与领先的图像到 3D 方法进行基准测试，以验证整体生成性能。针对流模型与 VAE 的消融实验证实，跳跃连接与 R-Flow 采样等架构改进，结合表面法线与 Eikonal 正则化引导的神经 SDF 表示，显著提升了几何保真度与重建精度。扩展实验进一步表明，优先采用精心策划的高质量数据比原始数据集扩展能带来更大的初始收益，而逐步增加精炼训练数据的规模持续推动性能提升且未出现饱和。最终，TripoSG 在语义对齐、细节保留与跨风格泛化方面始终优于现有方法，为高保真 3D 生成奠定了坚实基础。

作者以 Normal-FID 为指标，评估数据质量与数量对 3D 生成性能的影响。结果表明，相较于使用原始未处理数据，通过数据构建系统提升数据质量可带来更优性能。扩大高质量数据规模进一步增强了性能，其中从较小高质量集合扩展至较大集合时提升最为显著。通过数据构建系统提升数据质量比使用原始未处理数据更能改善 3D 生成性能。扩大高质量数据规模可带来生成性能的显著提升。增加高质量数据规模带来的性能增益大于仅提升数据质量所带来的增益。

作者开展消融实验，评估数据质量与模型扩展对 3D 生成性能的影响。结果表明，相较于使用规模更大但质量较低的数据集，提升数据质量可带来更优性能，而扩大高质量数据集规模能进一步改善结果。高质量数据与更大模型规模的结合实现了最佳性能。提升数据质量比使用规模更大但质量较低的数据集能产生更好的生成结果。扩大高质量数据规模可显著提升生成性能。将高质量数据与更大模型规模相结合可实现最佳整体性能。

作者开展消融实验，评估不同组件对流模型性能的影响，重点考察采样方法、跳跃连接与条件输入。结果表明，结合 CLIP-DINOv2 条件输入、跳跃连接与 R-Flow 采样可达到最佳性能，Normal-FID 分数最低。这些组件带来的改进十分显著，其中跳跃连接与采样方法的选择对生成质量有明确影响。结合 CLIP-DINOv2 条件输入、跳跃连接与 R-Flow 采样实现了最优的 Normal-FID 性能。跳跃连接通过增强特征融合显著改善生成结果。在 3D 生成任务中，R-Flow 采样优于 DDPM 和 EDM 等其他采样方法。

作者开展消融实验，评估不同 3D 表示形式、训练监督机制与数据集质量对 VAE 重建的影响。结果表明，相较于基于占用的方法，采用表面法线引导与 Eikonal 正则化的 SDF 表示形式可获得更优的重建质量。此外，扩大高质量数据集规模可显著提升性能，证明数据质量与数量均是取得卓越结果的重要因素。采用表面法线引导与 Eikonal 正则化的 SDF 表示形式相比基于占用的方法提升了重建质量。扩大高质量数据集规模带来显著的性能提升。数据质量比原始数据集规模更为重要，但在质量提升后，性能仍随数据量的增加而持续提高。

通过系统的消融研究，作者评估了数据策划、模型扩展、架构组件与 3D 表示策略如何影响生成与重建性能。实验验证了相较于更大的原始数据集，优先采用精心策划的高质量数据始终能产出更优结果，且随着高质量数据规模的扩大，性能显著提升。将扩展的高质量数据集与更大的模型容量相结合可实现最佳效果，而 CLIP-DINOv2 条件输入、跳跃连接与 R-Flow 采样等特定架构选择显著增强了生成保真度。此外，带有几何正则化的 SDF 表示形式在重建任务中展现出明显优势，确立了战略性数据策划与针对性模型设计是整体系统成功的根本驱动力。

一句话总结

核心贡献

TripoSG 提出了一种精简的形状扩散范式，利用大规模整流流 Transformer 生成与输入图像精确对齐的 3D 网格。
该框架采用具有几何表达能力的 3D 表示方法，并结合改进的扩散架构与训练策略，以解决此前在条件对齐和泛化能力方面的局限。
该方法在海量高质量 3D 数据集上进行训练，在合成带纹理和无纹理形状时，均实现了最先进的保真度与强大的泛化能力。

引言

数据集

数据集构成与来源： 作者主要基于 Objaverse(-XL) 和 ShapeNet 构建训练语料库，初始池包含从公开互联网来源收集的约 1000 万个 3D 模型。
质量控制与过滤规则： 为解决数据质量不一致的问题，团队实施了一个四阶段预处理流程。使用在 CLIP 和 DINOv2 特征上训练的评分模型，通过多视图法线图对模型进行排序。通过审核的模型随后会经过严格过滤，移除具有大型平面基底、动画渲染错误以及多个不相连对象的资产。
最终数据集规模： 应用这些质量控制标准后，作者整理出包含 200 万个高质量 3D 对象的最终训练集合。
朝向修正与增强： 角色模型通过基于 DINOv2 的朝向估计器（在 24 个旋转姿态上训练）自动对齐至朝前方向。对于无纹理资产，作者渲染多视图法线图，并利用 ControlNet++ 合成对应的 RGB 图像，这些图像在训练期间作为条件输入。
几何处理与场构建： 为支持神经隐式场训练，非封闭网格被转换为封闭表示。作者生成 512³ 无符号距离函数（UDF）网格，清除不可见体素值，并使用阈值为 3/512 的 Marching Cubes 算法提取表面。利用面积和环境遮挡指标修剪小型内部组件，随后对表面法线和体积点进行均匀采样。
训练配置与相机参数： 整理后的数据集用于训练 TripoSG 流模型。针对单图像条件输入，作者渲染位于每个对象前方的 8 个随机视角。相机参数在仰角 -15° 至 30°、方位角 0° 至 180° 范围内随机化，焦距从正交、50mm、85mm、135mm 或 35mm 至 65mm 之间随机选取的两个值中确定。基于采样点计算真实符号距离函数，以监督几何学习。

方法

实验

一句话总结

核心贡献

TripoSG 提出了一种精简的形状扩散范式，利用大规模整流流 Transformer 生成与输入图像精确对齐的 3D 网格。
该框架采用具有几何表达能力的 3D 表示方法，并结合改进的扩散架构与训练策略，以解决此前在条件对齐和泛化能力方面的局限。
该方法在海量高质量 3D 数据集上进行训练，在合成带纹理和无纹理形状时，均实现了最先进的保真度与强大的泛化能力。

引言

数据集

数据集构成与来源： 作者主要基于 Objaverse(-XL) 和 ShapeNet 构建训练语料库，初始池包含从公开互联网来源收集的约 1000 万个 3D 模型。
质量控制与过滤规则： 为解决数据质量不一致的问题，团队实施了一个四阶段预处理流程。使用在 CLIP 和 DINOv2 特征上训练的评分模型，通过多视图法线图对模型进行排序。通过审核的模型随后会经过严格过滤，移除具有大型平面基底、动画渲染错误以及多个不相连对象的资产。
最终数据集规模： 应用这些质量控制标准后，作者整理出包含 200 万个高质量 3D 对象的最终训练集合。
朝向修正与增强： 角色模型通过基于 DINOv2 的朝向估计器（在 24 个旋转姿态上训练）自动对齐至朝前方向。对于无纹理资产，作者渲染多视图法线图，并利用 ControlNet++ 合成对应的 RGB 图像，这些图像在训练期间作为条件输入。
几何处理与场构建： 为支持神经隐式场训练，非封闭网格被转换为封闭表示。作者生成 512³ 无符号距离函数（UDF）网格，清除不可见体素值，并使用阈值为 3/512 的 Marching Cubes 算法提取表面。利用面积和环境遮挡指标修剪小型内部组件，随后对表面法线和体积点进行均匀采样。
训练配置与相机参数： 整理后的数据集用于训练 TripoSG 流模型。针对单图像条件输入，作者渲染位于每个对象前方的 8 个随机视角。相机参数在仰角 -15° 至 30°、方位角 0° 至 180° 范围内随机化，焦距从正交、50mm、85mm、135mm 或 35mm 至 65mm 之间随机选取的两个值中确定。基于采样点计算真实符号距离函数，以监督几何学习。

一键部署 TripoSG：单图秒变高保真 3D

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

一键部署 TripoSG：单图秒变高保真 3D

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

一键部署 TripoSG：单图秒变高保真 3D

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 TripoSG：单图秒变高保真 3D

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 TripoSG：单图秒变高保真 3D

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 TripoSG：单图秒变高保真 3D

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters