HyperAIHyperAI

Command Palette

Search for a command to run...

清华AI突破:0.4秒实现4D自驾高斯重建,性能提升50%

清华大学智能产业研究院(AIR)赵昊课题组联合小米汽车等单位,推出首个面向大型动态驾驶场景的无姿态前馈三维重建框架DGGT(Driving Gaussian Grounded Transformer)。该方法仅需稀疏、未标定的图像输入,即可在0.4秒内完成4D场景重建,输出相机位姿、深度、动态实例与3D Gaussian表示,实现高速、可扩展的自动驾驶仿真新范式。 DGGT突破传统方法依赖逐场景优化、相机标定和短时窗口的限制,将位姿预测从输入转为输出,实现“端到端”4D重建。其核心创新在于融合ViT与DINO先验,通过多头并行预测(包括相机位姿、动态分割、寿命建模、运动估计等),并在渲染后引入单步扩散精修,有效抑制运动插值伪影,显著提升时空一致性和渲染自然度。 在Waymo数据集上训练的DGGT,无需微调即可在nuScenes与Argoverse2上实现优异的零样本泛化性能,关键感知指标相比STORM提升超50%。尤其在LPIPS指标上,分别下降61.4%与52.5%,证明其对不同传感器配置和行驶轨迹具有强大鲁棒性。 DGGT具备出色的可扩展性:输入视角从4增至16时,重建与新视角合成性能保持稳定,而对比方法性能显著下降,适用于大规模自动驾驶日志处理。其lifespan head模块有效建模静态区域随时间的光照与反射变化,去除后PSNR下降3.2 dB,说明时间一致性建模对真实感至关重要。Motion head则实现像素级3D位移预测,保障动态物体在时序上的连续性。 此外,DGGT支持在3D Gaussian层面进行实例级编辑,如增删移动车辆、插入新对象,配合扩散精修自动补洞与平滑边界,生成结果自然可信。这使其不仅为重建工具,更成为可编辑的4D场景资产生成器,广泛适用于自动驾驶仿真、数据增强与评测等下游任务。 该项目已开源,代码与项目主页已上线,为推动高阶自动驾驶环境建模与AI理解能力发展提供重要技术支撑。

相关链接