HyperAIHyperAI

Command Palette

Search for a command to run...

ABot-Earth 0.5:生成式3D地球模型

摘要

本文提出ABot-Earth 0.5,一种生成式三维框架,旨在利用广泛存在的、具备地理空间参考的卫星影像,合成广阔且无缝的三维环境。为此,我们提出了一种新型生成模型,该模型直接基于三维高斯溅射(3DGS)表示进行构建。该模型在涵盖多种现有真实世界城市重建数据的语料库上进行训练,以学习生成逼真的几何结构与纹理。在推理阶段,该模型仅以卫星影像为条件,即可合成全新的三维场景,生成速率可扩展至每平方公里不足10分钟,同时展现出极高的逼真度。该框架注重可访问性,内置分层细节(LOD)结构,支持在基于Web的地图引擎上实现实时交互式可视化。这一高保真模拟沙盒有效缓解了仿真到现实(sim-to-real)的域差距问题,从而赋能闭环无人机导航等关键的下游具身智能(Embodied AI)应用。通过提供超低成本且高效的解决方案,ABot-Earth 0.5显著降低了大规模三维重建的技术与经济门槛,有力推动了未来全球数字地球可视化的发展。

一句话总结

ABot-Earth 0.5 是一个生成式 3D 框架,利用基于城市重建训练的 3D 高斯泼溅(3D Gaussian Splatting)新公式,从具有地理空间参考的卫星影像中合成无缝地球环境。该框架在每平方公里生成逼真场景的时间不到 10 分钟,同时利用集成的分层细节(LOD)结构实现网页端实时可视化,并缓解闭环无人机导航等具身智能(Embodied AI)应用中的仿真到现实(sim-to-real)域差距。

核心贡献

  • 本文提出 ABot-Earth 0.5,一个生成式 3D 框架,可直接从具有地理空间参考的卫星影像中合成广阔、无缝的城市环境。
  • 该方法在 3D 高斯泼溅(3DGS)表示基础上构建了一种新颖的生成模型,利用多样化的真实世界城市重建语料库进行训练,实现每平方公里推理时间低于 10 分钟。集成的分层细节结构进一步支持在基于网页的地图引擎上进行实时交互式可视化。
  • 该框架通过提供高保真仿真环境,支持闭环无人机导航与具身智能训练,有效缩小了仿真到现实的域差距。

引言

高保真三维地理空间重建是数字孪生基础设施、智慧城市物流与自主系统仿真的关键基础。基于密集摄影测量和激光雷达扫描的传统重建流程面临高昂的采集成本、漫长的处理延迟以及极高的计算门槛。尽管生成式 3D 建模在物体尺度上已趋于成熟,但将这些技术扩展至无界户外环境仍面临挑战,因为现有模型严重依赖合成资产或无约束的幻觉生成,导致严重的仿真到现实域差距。为应对这些挑战,作者提出了 ABot-Earth 0.5,一个直接在高质量真实世界 3D 高斯泼溅重建数据上训练的生成框架。通过利用无处不在的卫星影像作为地理空间条件信号,并原生输出分层细节结果,该模型能够以行星尺度快速合成物理逼真、可直接用于仿真的 3D 环境。这种生成范式有效弥合了真实性差距,同时大幅降低了数据与计算开销,为可扩展且具成本效益的数字地球应用铺平了道路。

数据集

数据集构成与来源

  • 作者构建了一个基于真实世界、城市尺度的 3D 高斯泼溅(3DGS)场景数据集,来源涵盖三类互补影像:卫星影像、航空影像与城市街景。所有输入均为真实拍摄数据而非合成资产,结合了专有采集数据与经过筛选的公开基准数据集。所有数据源在进入重建流程前均经过统一的坐标转换与元数据标准化处理。

子集详情

  • 卫星影像: 来自 DFC 2019 等公开基准与专有档案的多立体轨道拍摄数据,覆盖不同的非天顶角。这些数据通过专用的 FromOrbit2Ground 模块进行处理,利用 Z 单调符号距离函数(Z-Monotonic SDF)恢复水密几何结构,并使用扩散恢复网络合成立面纹理。
  • 航空数据: 作为核心训练源的高分辨率斜射影像。数据来源于专有集合与 UrbanScene3D、Mill-19 等公开数据集。重建流程可选择性结合激光雷达点云与预构建的摄影测量网格作为辅助几何先验。
  • 城市影像: 源自 UC-GS 等公开存储库与专有 feed 的街景视频与低空无人机 footage。经过质量过滤后,这些地面视角数据与航空数据进行配准与联合重建,以提升低空区域的立面细节与新颖视角质量。

数据处理与使用

  • 作者采用滑动窗口策略将重建的 3DGS 场景转换为紧凑、便于生成的训练图块。每个图块覆盖 200 米乘 200 米的区域,并保留有意重叠以维持边界上下文信息,随后进行坐标归一化与基于聚类的悬浮伪影剔除。
  • 密集多视角监督数据通过在不同海拔层分布虚拟相机阵列生成。系统沿不同方位角采样斜射视角,并对相机位置、海拔、俯仰角与偏航角施加随机扰动,以最大化视角多样性。同时生成模拟卫星渲染图,作为模型训练的条件输入。
  • 多粒度质量评估流程在图块、视角与数据集层级对数据进行检查。仅通过筛选的高保真样本会被收录至最终训练集。

方法

作者提出了 ABot-Earth 0.5,一个旨在从卫星影像合成广阔无缝 3D 环境的生成式框架。该框架直接基于 3D 高斯泼溅(3DGS)表示构建新颖的生成模型。其核心架构依托一个综合流程,始于从卫星、航空与城市影像等多源数据收集。这些多源输入经由 ABot-3DGS 重建引擎处理,以应对可扩展性、内容异构性与外观差异等挑战。重建过程采用可扩展的分层分块架构,将城市尺度场景划分为可独立优化的区块,从而实现高效的 GPU 集群并行计算。该框架结合深度估计与多视角几何一致性等几何与细节优化策略,确保高几何精度与细粒度纹理保留。场景鲁棒性通过语义感知优化与动态移除瞬态元素实现,而跨视角质量增强则利用多源数据融合生成照片级真实重建结果。最终的高保真 3DGS 场景为下游生成模型奠定基础。

生成模型本身设计为原生 3DGS 框架,直接作用于 3DGS 表示以从真实场景中学习紧凑的潜在空间。该方法使模型能够处理真实环境的复杂性,且不受基于网格假设的限制。核心创新在于内置的多细节层级(LOD)解码器,该解码器深度集成于生成过程中,用于合成分层 3DGS 结构。这支持按需无缝生成适当细节层级,实现从行星概览到街道视角的平滑实时交互式可视化。为确保大尺度空间一致性,模型采用无缝滑动窗口推理策略。该机制在生成过程中智能融合重叠区域,大幅降低拼接伪影,支持渲染广阔连续的地貌。模型还具备跨域适应策略,以应对卫星影像在质量与采集条件上的显著差异。该两阶段方法在训练期间模拟卫星渲染,并在推理阶段利用视觉语言模型(VLM)动态调整条件输入,确保从任意真实卫星输入实现高保真生成。

ABot-Earth 0.5 作为行星尺度系统的部署依赖于两阶段端到端流程。第一阶段为全局尺度 3DGS 生产流程,采用基于图块的生成策略以管理巨大的计算需求。地球被划分为规则空间图块,每个图块独立处理以适应推理 GPU 的显存限制。这种模块化方法允许生成大规模区块,随后进行地理配准与输入预处理,以确保统一尺度与精确对齐。第二阶段为 EarthScape 可扩展渲染流程,旨在管理与渲染海量数据集。该流程始于地理对齐,将每个区块转换为统一坐标系(EPSG:3857),并建立 ENU 局部切平面以实现精确渲染。随后进行大规模的 LOD 数据重组,将高斯分布重新划分至标准地图图块层级,生成从 14 级到 19 级的多级 LOD 结构。最高精度层级由推理模型原生生成,较低层级则基于 Bhattacharyya 距离的统计方案进行高效抽稀。该流程利用异构计算资源以最小化延迟。流程最终进入渲染调度阶段,将组织好的数据集成至高德云景渲染引擎。引擎利用现有的视锥剔除与异步流式传输能力,根据相机视口动态加载图块,实现万亿级全局 3DGS 数据集的实时交互式渲染。

实验

评估框架通过两个互补维度检验所提方法:与学术基线对比的生成保真度,以及与主流商业平台对比的系统级适用性。生成保真度分析表明,该模型在捕捉照片级真实细节方面具有显著优势,同时支持连续、行星尺度的 3D 环境创建,克服了传统测绘方法的空间限制。在系统级性能方面,该框架展现出显著更快的部署周期与更广泛的地理覆盖范围。尽管在精确几何重建方面目前略逊于成熟的商业流程,但人工评估显示其整体美学吸引力更强。综合这些定性结果,该方法被验证为一种高度可扩展且契合时宜的真实世界数字孪生应用方案,其生成能力有望逐步缩小与行业标准的质量差距。

{"summary": "作者将系统 ABot-Earth 0.5 与商业方案 Google Earth 和 Marble 在关键系统级维度上进行对比。结果表明,ABot-Earth 0.5 提供具有无限覆盖范围与开放平台的生成范式,这与基于重建且覆盖受限的 Google Earth,以及封闭的 Marble 形成对比。", "highlights": ["ABot-Earth 0.5 通过生成方法实现无限覆盖,不同于 Google Earth 稀疏的扫描区域覆盖。", "ABot-Earth 0.5 运行于开放平台,相比仅支持 API 访问的 Google Earth 与封闭的 Marble,提供更高的可访问性。", "该系统采用生成范式,相比传统重建方法,能够覆盖更广的空间范围并更快创建 3D 环境。"]}

{"summary": "作者使用标准指标评估所提方法相对于现有基线的生成保真度,证明其在生成逼真户外场景方面性能更优。同时对比系统与商业方案的适用性,突出其在覆盖范围、效率与视觉质量方面的优势。", "highlights": ["所提方法相比现有基线实现显著更好的生成保真度,表现为更低的 FID 与 KID 分数。", "系统在空间覆盖与可扩展性方面优于商业方案,能够在数据原本不可用的区域实现 3D 生成。", "尽管商业系统在几何与纹理保真度上表现优异,但所提方法实现更高的整体美学质量,表明其在整体照片级真实感方面具有优势。"]}

作者对所提生成系统与商业平台及现有基线进行对比评估,以验证空间覆盖范围、平台可访问性与场景真实感。首次对比表明,生成范式能够实现无限制的地理覆盖与开放访问,与商业替代品受限且依赖扫描的特性形成对比。第二次评估确认,尽管传统重建方法在精确几何与纹理准确性上表现优异,但所提方法在整体照片级真实感与可扩展性方面更具优势,为大规模 3D 环境生成建立了更灵活的框架。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供