HyperAI
القصص الرائجة
清华大学AIR团队推出4D自动驾驶高斯重建新框架DGGT，0.4秒完成长序列动态场景重建，性能提升50% 清华大学智能产业研究院（AIR）青年教师赵昊课题组联合小米汽车等单位，发布首个面向大型动态驾驶场景的无姿态前馈三维重建框架——DGGT（Driving Gaussian Grounded Transformer）。该方法突破传统重建技术对相机标定、短时窗口和逐场景优化的依赖，仅需稀疏、未标定的图像输入，即可在0.4秒内完成长序列4D场景重建，输出包括相机位姿、深度、动态实例和3D高斯表示在内的可编辑资产，显著提升自动驾驶仿真与数据生成的效率与可扩展性。 DGGT的核心创新在于将相机位姿从输入转为模型输出，实现“无姿态”重建。这一设计使系统无需外参标定，即可在不同传感器配置和行驶路径下稳定运行，并在Waymo数据集上训练后，直接在nuScenes和Argoverse2上实现强零样本泛化能力。在关键感知指标上，DGGT相比当前SOTA方法STORM提升超过50%，尤其在LPIPS等视觉一致性指标上分别降低61.4%和52.5%。系统采用ViT编码器融合DINO先验，通过多头并行预测输出相机位姿、深度、动态分割、3D高斯表示、运动场和场景寿命（lifespan）等信息。其中，lifespan head有效建模静态区域随时间的光照与反射变化，避免因时间维度建模缺失导致的渲染不一致；motion head则通过像素级3D位移预测，实现动态物体在时序上的精准对齐，大幅减少运动插值伪影。此外，DGGT引入单步扩散精修模块，在3D高斯层面对重建结果进行细节优化，自动填补遮挡空洞、平滑边界、修复纹理，使合成结果在几何与外观上均更自然可信。系统支持实例级编辑操作，如添加、删除或移动车辆、骑行者等动态对象，为自动驾驶仿真、数据增强和测试验证提供高效、可编辑的4D场景资产。该成果已开源，项目主页与代码库同步发布，为自动驾驶、元宇宙、数字孪生等领域提供全新技术路径。DGGT不仅标志着4D场景重建向高速、可扩展方向迈进，更推动了AI在复杂动态环境中的真实感知与理解能力发展。

منذ 2 أشهر

清华大学AIR团队推出4D自动驾驶高斯重建新框架DGGT，0.4秒完成长序列动态场景重建，性能提升50% 清华大学智能产业研究院（AIR）青年教师赵昊课题组联合小米汽车等单位，发布首个面向大型动态驾驶场景的无姿态前馈三维重建框架——DGGT（Driving Gaussian Grounded Transformer）。该方法突破传统重建技术对相机标定、短时窗口和逐场景优化的依赖，仅需稀疏、未标定的图像输入，即可在0.4秒内完成长序列4D场景重建，输出包括相机位姿、深度、动态实例和3D高斯表示在内的可编辑资产，显著提升自动驾驶仿真与数据生成的效率与可扩展性。 DGGT的核心创新在于将相机位姿从输入转为模型输出，实现“无姿态”重建。这一设计使系统无需外参标定，即可在不同传感器配置和行驶路径下稳定运行，并在Waymo数据集上训练后，直接在nuScenes和Argoverse2上实现强零样本泛化能力。在关键感知指标上，DGGT相比当前SOTA方法STORM提升超过50%，尤其在LPIPS等视觉一致性指标上分别降低61.4%和52.5%。系统采用ViT编码器融合DINO先验，通过多头并行预测输出相机位姿、深度、动态分割、3D高斯表示、运动场和场景寿命（lifespan）等信息。其中，lifespan head有效建模静态区域随时间的光照与反射变化，避免因时间维度建模缺失导致的渲染不一致；motion head则通过像素级3D位移预测，实现动态物体在时序上的精准对齐，大幅减少运动插值伪影。此外，DGGT引入单步扩散精修模块，在3D高斯层面对重建结果进行细节优化，自动填补遮挡空洞、平滑边界、修复纹理，使合成结果在几何与外观上均更自然可信。系统支持实例级编辑操作，如添加、删除或移动车辆、骑行者等动态对象，为自动驾驶仿真、数据增强和测试验证提供高效、可编辑的4D场景资产。该成果已开源，项目主页与代码库同步发布，为自动驾驶、元宇宙、数字孪生等领域提供全新技术路径。DGGT不仅标志着4D场景重建向高速、可扩展方向迈进，更推动了AI在复杂动态环境中的真实感知与理解能力发展。

清华大学智能产业研究院（AIR）青年教师赵昊课题组联合小米汽车等机构，推出全球首个面向大型动态驾驶场景的无姿态前馈三维重建框架——DGGT（Driving Gaussian Grounded Transformer）。该技术突破传统方法对相机标定、短时窗口与逐场景优化的依赖，仅需稀疏、未标定的图像输入，即可在0.4秒内完成4D动态场景的高精度重建，实现相机位姿、深度图、动态物体分割与可编辑3D Gaussian表示的一体化输出。 DGGT的核心创新在于将相机位姿从输入变为模型输出，彻底摆脱外参标定需求，使系统具备天然的跨数据集泛化能力。模型在Waymo数据集上训练后，无需微调即可在nuScenes与Argoverse2上实现显著优于当前最优方法（如STORM）的性能，关键感知指标提升超50%。尤其在零样本跨域测试中，LPIPS指标分别下降61.4%与52.5%，充分验证了其强大的鲁棒性。在技术架构上，DGGT采用ViT编码器融合DINO视觉先验，通过多头并行预测机制，同步输出相机位姿、深度、动态分割、3D高斯分布、运动场与场景寿命（lifespan）等多维信息。其中，lifespan head有效建模静态区域随时间的光照与反射变化，避免因忽略时间演化导致的渲染不一致；motion head则通过像素级3D位移预测，实现动态物体在时序上的精准对齐，显著减少运动插值伪影。更值得一提的是，DGGT支持任意数量输入视角与长序列处理。实验表明，当输入视角从4增至16时，其重建与新视角合成（NVS）性能保持稳定，而对比方法则明显退化，展现出卓越的可扩展性，适用于大规模自动驾驶日志的工程化处理。在生成质量方面，DGGT引入单步扩散精修模块，在保持高效性的同时大幅提升渲染自然度与时空一致性。结合3D Gaussian表示，系统支持实例级场景编辑——可自由添加、删除或移动车辆、骑行者等动态对象，扩散模块自动补洞、平滑边界，生成结果真实可信。这一成果不仅推动了自动驾驶仿真与数据合成的技术边界，更标志着从“被动重建”向“主动可编辑4D场景生成”的范式跃迁。DGGT为智能驾驶系统提供了高速、高保真、可定制的虚拟环境构建工具，也为多模态大模型在复杂视觉任务中的真实理解能力评估提供了新场景——正如其团队同期推出的3D密室逃脱环境EscapeCraft所揭示的：即便顶尖模型如GPT-4o，仍普遍存在“看见但不懂”的系统性缺陷。DGGT的出现，正为构建真正“看得懂、想得清、做得出”的智能系统铺平道路。

الروابط ذات الصلة

AIR科研｜0.4秒完成4D自驾高斯重建，性能提升50%！-清华大学智能产业研究院

清华大学智能产业研究院新闻中心

HyperAI

HyperAI
القصص الرائجة
清华大学AIR团队推出4D自动驾驶高斯重建新框架DGGT，0.4秒完成长序列动态场景重建，性能提升50% 清华大学智能产业研究院（AIR）青年教师赵昊课题组联合小米汽车等单位，发布首个面向大型动态驾驶场景的无姿态前馈三维重建框架——DGGT（Driving Gaussian Grounded Transformer）。该方法突破传统重建技术对相机标定、短时窗口和逐场景优化的依赖，仅需稀疏、未标定的图像输入，即可在0.4秒内完成长序列4D场景重建，输出包括相机位姿、深度、动态实例和3D高斯表示在内的可编辑资产，显著提升自动驾驶仿真与数据生成的效率与可扩展性。 DGGT的核心创新在于将相机位姿从输入转为模型输出，实现“无姿态”重建。这一设计使系统无需外参标定，即可在不同传感器配置和行驶路径下稳定运行，并在Waymo数据集上训练后，直接在nuScenes和Argoverse2上实现强零样本泛化能力。在关键感知指标上，DGGT相比当前SOTA方法STORM提升超过50%，尤其在LPIPS等视觉一致性指标上分别降低61.4%和52.5%。系统采用ViT编码器融合DINO先验，通过多头并行预测输出相机位姿、深度、动态分割、3D高斯表示、运动场和场景寿命（lifespan）等信息。其中，lifespan head有效建模静态区域随时间的光照与反射变化，避免因时间维度建模缺失导致的渲染不一致；motion head则通过像素级3D位移预测，实现动态物体在时序上的精准对齐，大幅减少运动插值伪影。此外，DGGT引入单步扩散精修模块，在3D高斯层面对重建结果进行细节优化，自动填补遮挡空洞、平滑边界、修复纹理，使合成结果在几何与外观上均更自然可信。系统支持实例级编辑操作，如添加、删除或移动车辆、骑行者等动态对象，为自动驾驶仿真、数据增强和测试验证提供高效、可编辑的4D场景资产。该成果已开源，项目主页与代码库同步发布，为自动驾驶、元宇宙、数字孪生等领域提供全新技术路径。DGGT不仅标志着4D场景重建向高速、可扩展方向迈进，更推动了AI在复杂动态环境中的真实感知与理解能力发展。

منذ 2 أشهر

清华大学AIR团队推出4D自动驾驶高斯重建新框架DGGT，0.4秒完成长序列动态场景重建，性能提升50% 清华大学智能产业研究院（AIR）青年教师赵昊课题组联合小米汽车等单位，发布首个面向大型动态驾驶场景的无姿态前馈三维重建框架——DGGT（Driving Gaussian Grounded Transformer）。该方法突破传统重建技术对相机标定、短时窗口和逐场景优化的依赖，仅需稀疏、未标定的图像输入，即可在0.4秒内完成长序列4D场景重建，输出包括相机位姿、深度、动态实例和3D高斯表示在内的可编辑资产，显著提升自动驾驶仿真与数据生成的效率与可扩展性。 DGGT的核心创新在于将相机位姿从输入转为模型输出，实现“无姿态”重建。这一设计使系统无需外参标定，即可在不同传感器配置和行驶路径下稳定运行，并在Waymo数据集上训练后，直接在nuScenes和Argoverse2上实现强零样本泛化能力。在关键感知指标上，DGGT相比当前SOTA方法STORM提升超过50%，尤其在LPIPS等视觉一致性指标上分别降低61.4%和52.5%。系统采用ViT编码器融合DINO先验，通过多头并行预测输出相机位姿、深度、动态分割、3D高斯表示、运动场和场景寿命（lifespan）等信息。其中，lifespan head有效建模静态区域随时间的光照与反射变化，避免因时间维度建模缺失导致的渲染不一致；motion head则通过像素级3D位移预测，实现动态物体在时序上的精准对齐，大幅减少运动插值伪影。此外，DGGT引入单步扩散精修模块，在3D高斯层面对重建结果进行细节优化，自动填补遮挡空洞、平滑边界、修复纹理，使合成结果在几何与外观上均更自然可信。系统支持实例级编辑操作，如添加、删除或移动车辆、骑行者等动态对象，为自动驾驶仿真、数据增强和测试验证提供高效、可编辑的4D场景资产。该成果已开源，项目主页与代码库同步发布，为自动驾驶、元宇宙、数字孪生等领域提供全新技术路径。DGGT不仅标志着4D场景重建向高速、可扩展方向迈进，更推动了AI在复杂动态环境中的真实感知与理解能力发展。

الروابط ذات الصلة

AIR科研｜0.4秒完成4D自驾高斯重建，性能提升50%！-清华大学智能产业研究院

清华大学智能产业研究院新闻中心

HyperAI

HyperAI
القصص الرائجة
清华大学AIR团队推出4D自动驾驶高斯重建新框架DGGT，0.4秒完成长序列动态场景重建，性能提升50% 清华大学智能产业研究院（AIR）青年教师赵昊课题组联合小米汽车等单位，发布首个面向大型动态驾驶场景的无姿态前馈三维重建框架——DGGT（Driving Gaussian Grounded Transformer）。该方法突破传统重建技术对相机标定、短时窗口和逐场景优化的依赖，仅需稀疏、未标定的图像输入，即可在0.4秒内完成长序列4D场景重建，输出包括相机位姿、深度、动态实例和3D高斯表示在内的可编辑资产，显著提升自动驾驶仿真与数据生成的效率与可扩展性。 DGGT的核心创新在于将相机位姿从输入转为模型输出，实现“无姿态”重建。这一设计使系统无需外参标定，即可在不同传感器配置和行驶路径下稳定运行，并在Waymo数据集上训练后，直接在nuScenes和Argoverse2上实现强零样本泛化能力。在关键感知指标上，DGGT相比当前SOTA方法STORM提升超过50%，尤其在LPIPS等视觉一致性指标上分别降低61.4%和52.5%。系统采用ViT编码器融合DINO先验，通过多头并行预测输出相机位姿、深度、动态分割、3D高斯表示、运动场和场景寿命（lifespan）等信息。其中，lifespan head有效建模静态区域随时间的光照与反射变化，避免因时间维度建模缺失导致的渲染不一致；motion head则通过像素级3D位移预测，实现动态物体在时序上的精准对齐，大幅减少运动插值伪影。此外，DGGT引入单步扩散精修模块，在3D高斯层面对重建结果进行细节优化，自动填补遮挡空洞、平滑边界、修复纹理，使合成结果在几何与外观上均更自然可信。系统支持实例级编辑操作，如添加、删除或移动车辆、骑行者等动态对象，为自动驾驶仿真、数据增强和测试验证提供高效、可编辑的4D场景资产。该成果已开源，项目主页与代码库同步发布，为自动驾驶、元宇宙、数字孪生等领域提供全新技术路径。DGGT不仅标志着4D场景重建向高速、可扩展方向迈进，更推动了AI在复杂动态环境中的真实感知与理解能力发展。

منذ 2 أشهر

清华大学AIR团队推出4D自动驾驶高斯重建新框架DGGT，0.4秒完成长序列动态场景重建，性能提升50% 清华大学智能产业研究院（AIR）青年教师赵昊课题组联合小米汽车等单位，发布首个面向大型动态驾驶场景的无姿态前馈三维重建框架——DGGT（Driving Gaussian Grounded Transformer）。该方法突破传统重建技术对相机标定、短时窗口和逐场景优化的依赖，仅需稀疏、未标定的图像输入，即可在0.4秒内完成长序列4D场景重建，输出包括相机位姿、深度、动态实例和3D高斯表示在内的可编辑资产，显著提升自动驾驶仿真与数据生成的效率与可扩展性。 DGGT的核心创新在于将相机位姿从输入转为模型输出，实现“无姿态”重建。这一设计使系统无需外参标定，即可在不同传感器配置和行驶路径下稳定运行，并在Waymo数据集上训练后，直接在nuScenes和Argoverse2上实现强零样本泛化能力。在关键感知指标上，DGGT相比当前SOTA方法STORM提升超过50%，尤其在LPIPS等视觉一致性指标上分别降低61.4%和52.5%。系统采用ViT编码器融合DINO先验，通过多头并行预测输出相机位姿、深度、动态分割、3D高斯表示、运动场和场景寿命（lifespan）等信息。其中，lifespan head有效建模静态区域随时间的光照与反射变化，避免因时间维度建模缺失导致的渲染不一致；motion head则通过像素级3D位移预测，实现动态物体在时序上的精准对齐，大幅减少运动插值伪影。此外，DGGT引入单步扩散精修模块，在3D高斯层面对重建结果进行细节优化，自动填补遮挡空洞、平滑边界、修复纹理，使合成结果在几何与外观上均更自然可信。系统支持实例级编辑操作，如添加、删除或移动车辆、骑行者等动态对象，为自动驾驶仿真、数据增强和测试验证提供高效、可编辑的4D场景资产。该成果已开源，项目主页与代码库同步发布，为自动驾驶、元宇宙、数字孪生等领域提供全新技术路径。DGGT不仅标志着4D场景重建向高速、可扩展方向迈进，更推动了AI在复杂动态环境中的真实感知与理解能力发展。

الروابط ذات الصلة

AIR科研｜0.4秒完成4D自驾高斯重建，性能提升50%！-清华大学智能产业研究院

清华大学智能产业研究院新闻中心

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

Command Palette

الروابط ذات الصلة

Command Palette

الروابط ذات الصلة

Command Palette

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".