HyperAI超神经

CADrille: 基于在线强化学习的多模态CAD重建

Kolodiazhnyi, Maksim ; Tarasov, Denis ; Zhemchuzhnikov, Dmitrii ; Nikulin, Alexander ; Zisman, Ilya ; Vorontsova, Anna ; Konushin, Anton ; Kurenkov, Vladislav ; Rukhovich, Danila
发布日期: 6/1/2025
CADrille: 基于在线强化学习的多模态CAD重建
摘要

计算机辅助设计(CAD)在工程和制造领域中发挥着核心作用,使得创建精确且可编辑的三维模型成为可能。通过利用各种传感器数据或用户提供的数据作为CAD重建的输入,可以实现设计应用的普及化。然而,现有的方法通常集中于单一输入模态,如点云、图像或文本,这限制了它们的通用性和鲁棒性。借助近期视觉-语言模型(VLM)的进步,我们提出了一种多模态CAD重建模型,该模型能够同时处理上述三种输入模态。受大规模语言模型(LLM)训练范式的启发,我们采用了两阶段管道:首先在大规模程序生成的数据上进行监督微调(SFT),然后通过在线反馈(以编程方式获得)进行强化学习(RL)微调。此外,我们首次探索了用于CAD任务的LLM的RL微调,并证明了在线RL算法如群体相对偏好优化(GRPO)优于离线替代方案。在DeepCAD基准测试中,我们的SFT模型在所有三种输入模态上均超越了现有的单模态方法。更重要的是,在经过RL微调后,cadrille在三个具有挑战性的数据集上创造了新的最先进水平,其中包括一个真实世界的数据集。