DGGT: 0,4 Sekunden 4D-Rekonstruktion für autonomes Fahren
清华大学智能产业研究院(AIR)青年教师赵昊课题组联合小米汽车等机构,推出首个面向大规模动态驾驶场景的无姿态前馈三维重建框架DGGT(Driving Gaussian Grounded Transformer),实现仅需0.4秒即可完成4D场景重建,性能较现有方法提升超50%。该技术突破传统依赖相机标定、逐场景优化与短时窗口的限制,首次实现从稀疏、未标定图像中直接重建长序列动态三维场景,显著推动自动驾驶仿真向高速、可扩展方向发展。DGGT通过将相机位姿作为输出而非输入,结合ViT编码器与DINO先验,融合多任务预测头(包括动态分割、运动估计、寿命建模等),在单次前向传播中同步生成深度、位姿、动态实例与基于3D高斯的可编辑场景表示。其在Waymo数据集上训练后,无需微调即可在nuScenes与Argoverse2上实现卓越的零样本泛化能力,LPIPS指标分别降低61.4%与52.5%,显著优于STORM等SOTA方法。系统引入lifespan head建模静态区域随时间的光照与反射变化,有效缓解因时间演化建模不足导致的渲染不一致问题;motion head则通过像素级3D位移预测,实现动态物体在时序上的精准对齐,大幅减少运动伪影。此外,DGGT支持任意数量输入视角与长序列处理,在视角数从4增至16时重建质量保持稳定,展现出强大可扩展性。最终输出的3D高斯表示支持实例级编辑——可自由添加、删除或移动车辆、骑行者等动态对象,并通过单步扩散精修自动修复遮挡空洞与纹理缝隙,生成自然可信的合成场景。该成果为自动驾驶仿真、数据增强与虚拟测试提供了高效、灵活且高质量的4D场景生成工具。 业内专家指出,DGGT标志着自动驾驶感知与重建技术从“被动优化”迈向“主动建模”的关键跃迁。其pose-free设计和端到端4D重建能力,极大降低了对数据采集规范的依赖,具备极强工程落地潜力。小米汽车与清华AIR的合作也凸显了产学研协同在智能驾驶核心技术突破中的价值。DGGT不仅提升了重建效率与精度,更构建了一个可编辑、可扩展的虚拟驾驶环境,为下一代自动驾驶系统训练与验证提供了全新范式。
