摘要

计算机辅助设计（CAD）依赖于结构化且可编辑的几何表示，然而现有的生成方法受限于规模较小、需显式设计历史或边界表示（BRep）标注的数据集。与此同时，数百万未标注的三维网格数据尚未被充分利用，制约了可扩展 CAD 生成技术的发展。为此，我们提出 DreamCAD，这是一种多模态生成框架，能够在无需 CAD 专用标注的情况下，仅通过点级监督直接生成可编辑的 BRep 模型。DreamCAD 将每个 BRep 表示为一组参数化曲面片（如贝塞尔曲面），并采用可微分网格化方法生成网格，从而实现在大规模三维数据集上进行训练，同时重建出连通且可编辑的曲面。此外，我们构建了 CADCap-1M 数据集，这是目前规模最大的 CAD 文本描述数据集，包含超过一百万条由 GPT-5 生成的描述，旨在推动“文本到 CAD"生成研究的发展。在 ABC 和 Objaverse 基准测试中，DreamCAD 在文本、图像和点云三种模态下均取得了最先进（SOTA）的性能，显著提升了几何保真度，并在用户偏好测试中超过 75% 的胜率。相关代码与数据集将公开提供。

一句话总结

来自 DFKI、RPTU、伦敦帝国理工学院和华为伦敦的研究人员提出了 DreamCAD，这是一个多模态框架，利用可微贝塞尔曲面（Bézier patches）从未经标注的 3D 网格生成可编辑的 CAD 模型。该方法克服了先前方法的可扩展性限制，并引入了庞大的 CADCap-1M 数据集，以推动先进的文本到 CAD 应用。

主要贡献

DreamCAD 通过将形状表示为具有可微细分的 $C^{0}$ 连续贝塞尔曲面，解决了多模态 CAD 生成中的可扩展性瓶颈，从而能够在无需显式 CAD 标注的情况下，对大规模 3D 网格进行直接的点级监督。
作者推出了 CADCap-1M，这是迄今为止最大的 CAD 描述数据集，包含超过 100 万条由 GPT-5 生成的描述，旨在推动文本到 CAD 的研究，并克服现有小型标注数据集的局限性。
在 ABC 和 Objaverse 基准测试上的实验表明，DreamCAD 在文本、图像和点云模态上均实现了最先进的性能，将 Chamfer 距离降低了高达 70%，并在用户偏好评估中超过 75%。

引言

计算机辅助设计（CAD）对于工程和制造至关重要，但由于标准的边界表示（BRep）格式是离散且不可微的，因此在该领域扩展生成式 AI 仍然困难。依赖设计历史的先前方法仅限于小型数据集，且难以处理复杂形状；而使用显式 BRep 标注的方法则无法利用数百万个可用的未标注 3D 网格。为了克服这些障碍，作者提出了 DreamCAD，这是一个多模态框架，它将形状表示为可微贝塞尔曲面，从而能够在无需 CAD 特定标签的情况下，对大规模网格数据进行直接的点级监督。该方法使模型能够从文本、图像或点云生成可编辑的参数化曲面，同时实现最先进的几何精度，并支持构建庞大的 CADCap-1M 数据集以供未来研究使用。

数据集

数据集构成与来源：作者推出了 CADCap-1M，这是一个包含超过 100 万条高质量 CAD 模型描述的数据集，数据来源于 ABC、Automate、CADParser、Fusion360、ModelNet 和 3D-Future。该资源通过提供源自多样化和合成工业库的以形状为中心的描述，填补了文本到 CAD 生成的空白。
各子集的关键细节：
- ABC 和 Automate：这些子集经过了严格的过滤，基于对面、边和曲率的拓扑分析，移除了 99% 的平凡立方体和简单圆柱体。具有不现实边界框或几何复杂度不足（少于 5 个面或 10 个顶点）的退化模型也被剔除。
- Fusion360：该子集中约 46% 的样本包含可提取的零件名称，这些名称被用于增强描述的具体性。
- 总体统计：最终数据集的描述平均长度在 20 个单词以内，具有高度的语言多样性，包含超过 2.1 万个单词（unigrams）和 230 万个三词组（trigrams）。
数据使用与处理：
- 描述生成：作者使用 Blender 为每个模型渲染四个正交视图，并提示 GPT-5 生成描述。提示词中加入了模型名称、孔数量和相对尺寸等元数据，以减少幻觉并提高几何精度。
- 训练准备：对于图像到 CAD 的训练，团队使用三种互补的相机轨迹（方位角扫描、仰角扫描和均匀半球采样）为每个对象渲染 150 张多视图图像，以确保全覆盖。
- 视觉特征提取：对于无纹理网格，通过从中间色调到浅色调的调色板中分配随机漫反射颜色来合成纹理。图像被调整为 518x518 像素以进行 DINO 处理。
元数据与过滤策略：
- 元数据增强：该流程从 STEP 文件中提取零件名称，并计算孔数量和长宽比等几何属性以指导大语言模型（LLM）。这种方法使模型能够区分视觉上相似的零件，例如不同类型的垫圈或螺栓规格。
- 质量控制：使用 OpenCascade 过滤低质量模型，分析表面类型（平面、圆柱体、B 样条）和边缘特征。这确保了训练数据排除了过于简单或物理上不现实的几何形状。
- 调色板：在微调 Stable-Diffusion 3.5 期间，对无纹理模型应用了包含 30 多种深色、低饱和度颜色的精选调色板，以提高视觉一致性。

方法

DreamCAD 框架被设计为一个多模态生成系统，能够直接从点级监督生成可编辑的参数化曲面。该架构依赖于 3D 形状的可微表示以及从粗到细的生成策略，以确保几何保真度和拓扑一致性。

参数化曲面表示

该方法的核心利用双三次有理贝塞尔曲面，因其具有解析可处理性且与标准 CAD 操作兼容。有理贝塞尔曲面 $S(u,v)$ 由控制点网格 $C$ 和相关的非负权重 $W$ 在 $uv$ 域上定义。曲面的评估公式为：

S ( u , v ) = \frac { \sum _ { i , j } B _ { i } ^ { n } ( u ) B _ { j } ^ { m } ( v ) w _ { i j } c _ { i j } } { \sum _ { i , i } B _ { i } ^ { n } ( u ) B _ { i } ^ { m } ( v ) w _ { i j } }

其中 $B$ 代表伯恩斯坦基函数。这种公式允许通过细分进行可微网格生成，其中 $uv$ 域在网格上采样形成四边形单元，随后被分割为三角形。

变分自编码器与曲面解码

作者采用稀疏 Transformer VAE 将 3D 形状编码为紧凑的潜在表示。该过程首先将输入网格体素化为 $32^3$ 分辨率。为了保留精细的几何细节，每个活跃体素都通过渲染 150 张 RGB 和法线视图获得的视觉线索进行增强。特征使用 DINOv2 嵌入提取，并与每视图法线、体素中心和有符号距离值相结合。这些特征由稀疏 Transformer 编码器处理，以生成结构化的潜在变量。

参考框架图以查看完整流程。解码器将 3D 形状重建为一组贝塞尔曲面。为了确保相邻曲面之间的 $C^0$ 连续性，系统首先使用洪水填充算法从稀疏体素生成初始参数化四边形曲面。每个四边形通过采样 $4 \times 4$ 控制点网格转换为双三次有理贝塞尔曲面。随后，解码器通过预测每个控制点的局部变形和权重更新来细化该初始曲面，并通过在共享边界处平均预测值来强制连续性。

从粗到细的条件生成

对于来自文本、图像或点云的条件生成，DreamCAD 采用两阶段流匹配框架。在第一阶段，使用轻量级 VAE 从输入条件生成粗略的体素网格。在第二阶段，为每个活跃体素生成本地特征，随后由预训练的解码器将其转换为最终参数化曲面。

对于文本到 CAD 任务，作者采用两阶段方法以提高提示的保真度。他们在 CADCap-1M 数据集上微调 Stable Diffusion 模型，使其输出与图像到 CAD 的分布对齐。生成的图像随后作为图像到 CAD 模型的条件。这避免了直接文本到 3D 训练通常伴随的收敛缓慢和保真度低的问题。

CAD 拓扑恢复

虽然生成模型产生了一组参数化曲面，但恢复显式的 CAD 拓扑（BRep）仍然是一个挑战。作者引入了一个后处理模块，利用大语言模型（Qwen3）来恢复拓扑。生成曲面的控制点和权重被嵌入并输入到模型中，该模型输出结构化的 NURBS 表示，包括面连接性、极点、节点和权重。这使得最终输出可以转换为标准 CAD 格式。

实验

多模态生成实验验证了 DreamCAD 在点云到 CAD、图像到 CAD 和文本到 CAD 任务中均实现了最先进的性能，能够准确重建复杂几何形状和精细特征，同时在分布内和分布外数据集上保持零无效率。
描述质量评估证实，元数据增强的提示方法能够生成关于零件名称和几何细节的高度准确描述，确保了训练所需的可靠语义对齐。
消融研究表明，结合 G1 和拉普拉斯正则化器能产生最平滑的表面且伪影最少，而适度的体素网格分辨率在重建质量和计算效率之间提供了最佳平衡。
微调文本到图像模型相比使用预训练模型显著提高了提示保真度，随后的拓扑恢复实验证明，生成的参数化曲面可以成功转换为有效且可投入生产的 NURBS CAD 模型。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

18 小时前

Mohammad Sadil Khan Muhammad Usama Rolandos Alexandros Potamias Didier Stricker Muhammad Zeshan Afzal Jiankang Deng Ismail Elezi

摘要

一句话总结

主要贡献

DreamCAD 通过将形状表示为具有可微细分的 $C^{0}$ 连续贝塞尔曲面，解决了多模态 CAD 生成中的可扩展性瓶颈，从而能够在无需显式 CAD 标注的情况下，对大规模 3D 网格进行直接的点级监督。
作者推出了 CADCap-1M，这是迄今为止最大的 CAD 描述数据集，包含超过 100 万条由 GPT-5 生成的描述，旨在推动文本到 CAD 的研究，并克服现有小型标注数据集的局限性。
在 ABC 和 Objaverse 基准测试上的实验表明，DreamCAD 在文本、图像和点云模态上均实现了最先进的性能，将 Chamfer 距离降低了高达 70%，并在用户偏好评估中超过 75%。

引言

数据集

数据集构成与来源：作者推出了 CADCap-1M，这是一个包含超过 100 万条高质量 CAD 模型描述的数据集，数据来源于 ABC、Automate、CADParser、Fusion360、ModelNet 和 3D-Future。该资源通过提供源自多样化和合成工业库的以形状为中心的描述，填补了文本到 CAD 生成的空白。
各子集的关键细节：
- ABC 和 Automate：这些子集经过了严格的过滤，基于对面、边和曲率的拓扑分析，移除了 99% 的平凡立方体和简单圆柱体。具有不现实边界框或几何复杂度不足（少于 5 个面或 10 个顶点）的退化模型也被剔除。
- Fusion360：该子集中约 46% 的样本包含可提取的零件名称，这些名称被用于增强描述的具体性。
- 总体统计：最终数据集的描述平均长度在 20 个单词以内，具有高度的语言多样性，包含超过 2.1 万个单词（unigrams）和 230 万个三词组（trigrams）。
数据使用与处理：
- 描述生成：作者使用 Blender 为每个模型渲染四个正交视图，并提示 GPT-5 生成描述。提示词中加入了模型名称、孔数量和相对尺寸等元数据，以减少幻觉并提高几何精度。
- 训练准备：对于图像到 CAD 的训练，团队使用三种互补的相机轨迹（方位角扫描、仰角扫描和均匀半球采样）为每个对象渲染 150 张多视图图像，以确保全覆盖。
- 视觉特征提取：对于无纹理网格，通过从中间色调到浅色调的调色板中分配随机漫反射颜色来合成纹理。图像被调整为 518x518 像素以进行 DINO 处理。
元数据与过滤策略：
- 元数据增强：该流程从 STEP 文件中提取零件名称，并计算孔数量和长宽比等几何属性以指导大语言模型（LLM）。这种方法使模型能够区分视觉上相似的零件，例如不同类型的垫圈或螺栓规格。
- 质量控制：使用 OpenCascade 过滤低质量模型，分析表面类型（平面、圆柱体、B 样条）和边缘特征。这确保了训练数据排除了过于简单或物理上不现实的几何形状。
- 调色板：在微调 Stable-Diffusion 3.5 期间，对无纹理模型应用了包含 30 多种深色、低饱和度颜色的精选调色板，以提高视觉一致性。