Command Palette
Search for a command to run...
高精度重建完全遮挡物体,MIT 团队利用生成式 AI 改进无线视觉系统,最高精度达 85%

在计算机视觉与智能感知领域,如何重建完全遮挡物体一直是行业研究的难题。想象一下,物流仓库中被堆叠的包裹、生产线上的复杂设备,或者增强现实场景中需要识别隐藏物体的应用,传统光学传感器如摄像头或激光雷达往往无能为力。它们依赖可见光或激光线的反射,而这些信号在遇到障碍物时会被阻挡,导致物体不可观测。
近年来,毫米波(mmWave)技术的出现为这一问题提供了新的解决方案。毫米波信号能够穿透纸箱、布料等常见遮挡物,同时对人体安全友好,使其在工业、物流、机器人及增强现实等领域具备巨大潜力。尽管如此,毫米波信号本身具有镜面反射特性、噪声高且空间分辨率低,使得直接利用其进行完整三维重建成为挑战。为克服这一问题,一种思路是将现有的基于视觉的形状补全模型应用于毫米波重建。然而,该策略往往无法产生可靠的重建结果,因为这些模型原本针对高覆盖率、高分辨率的可见光传感器设计,并未考虑毫米波反射的独特物理特性。
针对这一痛点,来自麻省理工学院的研究人员提出了一种名为 Wave-Former 的新型方法——通过将毫米波的物理特性嵌入学习过程中,弥合了无线感知与现代形状补全技术之间的差距,从而实现对完全被遮挡的、形态多样的日常物体进行高精度的三维形状重建。该方法不仅解决了信号噪声高、遮挡严重的问题,同时通过创新的物理感知训练框架,实现了基于合成数据训练而在真实环境中高保真重建的能力。在与最先进基线方法的直接对比中,Wave-Former 将召回率从 54% 提升至 72%,同时保持了 85% 的高精度。
相关研究成果以「Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion」为题,已发布预印本于 arXiv 。
研究亮点:
* 首次提出了针对多样物体的穿遮挡毫米波三维形状补全框架,使得模型可完全在合成数据上训练,同时在真实数据上实现三维重建
* 该方法在真实 MITO 数据集 上,将召回率从 54% 提升至 72%,超过现有毫米波重建方法
* 在应用于毫米波部分点云时,超越了原生视觉补全模型,召回率提升 12%,精度达到最高的 85%

论文地址:
https://arxiv.org/abs/2511.14152
关注公众号,后台回复「毫米波」获取完整 PDF
三维物体数据集提供丰富样本
为了训练和验证 Wave-Former,研究团队采用了 3 类公开可用的三维物体数据集——
* OmniObject3D:包含大量多样化日常物体点云数据,覆盖家具、工具、玩具等类别。
* Toys4K-3D:专注于玩具及小型物体,丰富了形状多样性和材质特性。
* Objaverse Thingiverse 子集:提供了开源平台的三维模型,用于生成合成训练数据。
这 3 类数据集总计超过 25,000 个三维点云,为 Wave-Former 提供了丰富的训练样本。
在真实世界评估中,研究团队采用 MITO 数据集,该数据集包含 61 个 YCB 数据集中的物体。这些物体涵盖厨房用品、工具、食品、玩具等多种任务场景,材质包括木材、金属、纸板、塑料等,形状复杂多样,包括尖锐边缘、平面和曲面等。每个物体均在视线可见和完全遮挡条件下进行了毫米波测量,为模型的泛化能力提供了充分考验。
注:YCB 数据集全称 YCB Object and Model Set,是机器人与计算机视觉领域中一个非常经典、被广泛使用的标准数据集。
值得一提的是,Wave-Former 的训练完全依赖合成数据,通过物理感知训练框架,模型能够学习毫米波信号特性,从而在真实世界测量上表现出色,避免了实际毫米波数据稀缺带来的训练困难。
Wave-Former: 在合成数据上训练,在真实数据上实现三维重建
Wave-Former 的核心设计包括两个部分:物理感知训练流程和真实世界推理流程。这一设计充分考虑了毫米波信号的特性:镜面反射、高噪声、低空间分辨率以及可见性非均匀性,整体流程如下图所示:

物理感知训练流程(physics-aware training pipeline)
Wave-Former 的物理感知训练流程通过镜面反射感知的归纳偏置、依赖反射的可见性模式,以及联合优化与补全框架,将物理特性融入训练,使得模型可以完全在合成数据上训练。
首先是镜面反射感知归纳偏置。现有基于视觉的补全模型本质上编码了与可见光一致的归纳偏置,而这种偏置与毫米波信号不兼容,这是因为它们的「相机式」部分观测假设漫反射且覆盖广。为解决这一问题,研究人员通过物理一致的部分观测重新定义归纳偏置,以模拟毫米波信号的镜面反射。
第二是依赖反射的可见性。与光学传感器不同,毫米波的可见性具有强烈的各向异性,即可测量的反射取决于入射角度以及物体的反射强度。因此,即使两个物体几何形状相同,其可见性也可能因材料特性而显著不同。
为建模这一行为,研究人员引入了依赖反射的可见性模式,根据物理指导的角度和材料约束衰减表面点。这取代了常见的各向同性覆盖假设,使网络能够理解毫米波可见性本质上是不均匀且角度依赖的。
第三是联合去噪与补全。现有基于视觉的形状补全模型是为相机或 LiDAR 传感器典型的噪声和分辨率特性设计的,因此假设输入部分点云可以直接与重建点进行拼接。然而,毫米波信号噪声显著更高,且分辨率降低,因此现有的拼接策略会将大量失真传播到最终重建结果中。
为解决这一问题,研究人员提出了联合优化与补全方法,在训练中引入噪声以模拟真实毫米波信号的特性,然后重新定义损失函数,使模型能够输出完整的三维形状(无需拼接输入),从而重新解释不可靠的点,而不是简单保留它们。
整个训练框架基于 Transformer 的编码器-解码器架构(PoinTr 背骨),结合物理一致观测模型和去噪补全目标,使模型能够在完全合成数据上训练,并在真实毫米波信号上实现高保真重建。
真实世界推理流程(real-world inference process)
Wave-Former 的真实世界推理流程利用三阶段 pipeline,从真实毫米波信号重建完整的三维物体。
毫米波表面候选生成(阶段一)
首先,研究人员将原始毫米波测量转换为一组候选部分表面,准确捕捉反射中包含的几何信息。通常,毫米波部分点云估计依赖于对毫米波三维功率图像进行阈值处理,然而这会产生大量错误点,研究人员利用毫米波成像的最新进展,将原始反射转换为几何一致的部分表面空间。
物理感知形状补全(阶段二)
对每个候选部分表面应用训练好的模型,生成一组物理一致的完整候选重建。
熵感知表面选择(阶段三)
在高噪声或弱反射情况下,通过局部熵衡量点云的连续性和平面性,选择熵最低的候选重建,获得最终高保真三维点云。
这一流程使 Wave-Former 能够应对复杂遮挡、低覆盖、高噪声的实际场景,完成全方位的三维重建。
Wave-Former 相较先前最先进毫米波三维重建方法进步显著
为了评估性能,研究人员将 Wave-Former 与 4 个最先进的毫米波重建基线进行对比:
* Backprojection :经典且最广泛使用的毫米波成像方法,一种基于第一性原理的体积重建方法。
* mmNorm:最近提出的最先进毫米波三维重建方法,也基于第一性原理,通过估计表面法向量重建物体表面。
* RMap:最先进的基于学习的毫米波重建方法,最初用于场景级理解。
* RMap(微调版):在与 Wave-Former 相同的训练数据上对 RMap 进行微调,用于物体重建。
定性表现
首先,研究人员使用真实世界测量对 Wave-Former 与 4 个基线进行定性对比,下图展示了若干完全遮挡物体的真实 RGB(分割后)与点云的等距视图,以及每种方法的重建结果。

对真实世界完全遮挡物体的毫米波三维重建进行可视化对比
显然,Wave-Former 能够稳定地重建物体的完整形状,即使是复杂几何体如电钻或夹具也能准确重建。相比之下,基线方法存在精度低、覆盖范围有限、噪声高,甚至在某些情况下几乎无法分辨物体几何形状的问题。这些结果展示了 Wave-Former 相对于先前最先进毫米波三维重建方法的显著进步。
定量结果
下表报告了 Wave-Former 与所有基线在平均 Chamfer 距离、 F-Score 、精度和召回率上的表现:

值得注意的是,Wave-Former 的召回率显著提升,从最佳基线 RMap(微调版)的 54% 提升到 72%,同时保持 85% 的高精度。此外,Wave-Former 的 Chamfer 距离最低,为 0.069,而最佳基线为 0.18 。这充分证明了研究提出的方法在实现完全遮挡物体高精度三维重建方面的价值。
与基于视觉的形状补全对比
研究人员还评估了最先进的原生视觉形状补全模型是否能实现高精度的毫米波三维重建,下表报告了 Wave-Former 与 4 个最先进模型的性能对比:

Wave-Former 在所有指标上均优于其他模型,召回率从 60% 提升至 72%,同时实现最高精度 85% 。这表明将物理特性融入形状补全模型的重要性。
消融实验
最后,研究人员还分析了 Wave-Former 各个设计组件对整体性能的贡献,下表展示了 Wave-Former 相比三种不同部分实现方案的平均 Chamfer 距离(CD)、第 75 百分位 CD 以及边际提升百分比:

当移除镜面反射感知归纳偏置和反射依赖可见性(模型 A)时,性能显著下降:平均 Chamfer 距离增加 52%,第 75 百分位增加 67% 。
当进一步移除联合重建与补全模块(模型 B)时,平均 Chamfer 距离又增加了 10% 。
当再移除熵感知表面选择模块(模型 C)时,第 75 百分位 CD 再增加 19% 。
综上,这些结果清晰地展示了 Wave-Former 每个组件对整体性能的贡献。
技术延伸:从「重建物体」到「重建空间」
如果说 Wave-Former 已经证明,借助生成式 AI 与毫米波信号,可以实现对「完全遮挡物体」的高精度三维重建,那么 MIT 团队的另一项同步研究,则将这一能力进一步推进——从单一物体扩展到整个空间。
在该研究中,研究人员不再仅关注隐藏物体的形状,而是利用人体在室内移动过程中产生的多路径毫米波反射,对完整室内环境进行重建。传统方法通常会将这类复杂反射视为噪声直接丢弃,但该研究发现,这些所谓的「幽灵信号」实际上蕴含着空间结构的重要线索:当信号在人体与墙面、家具之间多次反射,其路径变化本身就编码了环境的几何信息。
问题在于,这类信号高度混乱、分辨率有限,几乎无法通过传统物理建模直接解析。为此,研究团队引入生成式 AI,对这些低质量、稀疏的初始重建结果进行理解与补全,使模型能够学习多路径反射的统计规律,并逐步推断出完整空间布局。
大量实验表明,与布局重建领域的现有技术相比,RISE 将倒角距离降低了 60%(降至 16 厘米),并首次实现了基于毫米波的目标检测,IoU 达到 58% 。这些结果表明,RISE 为使用单个静态雷达进行几何感知和隐私保护的室内场景理解奠定了新的基础。
论文标题:RISE: Single Static Radar-based Indoor Scene Understanding
论文链接:https://arxiv.org/abs/2511.14019
从更宏观的视角来看,这两项研究共同揭示了一条清晰的技术路径:AI 不再只是提升传感器精度,而是开始弥补信息本身的缺失。无论是 Wave-Former 对遮挡物体的补全,还是 RISE 对室内空间的推断,其本质都是通过生成式模型,将不完整、甚至高度失真的输入,转化为结构完整、物理合理的三维世界。这意味着,未来的感知系统或许不再依赖「看得见多少」,而取决于「能推断多少」。在这一趋势下,机器人、智能家居乃至增强现实等领域,都有望获得一种全新的能力——在不可见中重建现实。
参考文献:
1.https://arxiv.org/abs/2511.14152
2.https://news.mit.edu/2026/generative-ai-improves-wireless-vision-system-sees-through-obstructions-0319
3.https://arxiv.org/abs/2511.14019








