HyperAI超神经

城市，是人们安居乐业的故土，是政府开展经济建设的基石，承载着细腻的人文情怀与宏伟的国家发展脉络。长期以来，管理者一直在探寻更加高效、科学的城市治理方法，解决不同地区资源供给不平衡、交通拥挤、人口流失等问题。在物联网、 AI 、大数据等技术的加速迭代下，智慧城市应运而生，在越来越多的国家开始了因地制宜的革新。

如果将智慧城市建设比喻成「盖房子」，那么时空数据便是必不可少的「砖瓦」，基于时空数据的时空预测模型更加是构成智慧城市框架的重要基础。时空数据，顾名思义，记录了事件在时间和空间两个维度上的发生与变化，包含地理信息、气象数据、交通数据、人口数据、卫星遥感数据等。

但是，由于城市发展水平不尽相同、数据收集政策也存在差异，导致部分城市的时空数据匮乏，难以支撑预测模型的构建。对此，现有方法主要是利用数据丰富的源城市数据训练模型，并将其应用于数据稀缺的目标城市。但这一过程往往依赖于复杂的匹配设计，如何实现对源城市和目标城市之间更加泛化的知识迁移仍是一个重要挑战。

针对城市计算中广泛存在的数据稀缺性问题，清华大学电子工程系城市科学与计算研究中心发布了最新研究成果《Spatio-Temporal Few-Shot Learning via Diffusive Neural Network Generation》，提出了 GPD (Generative Pre-Trained Diffusion) 模型，利用扩散模型生成神经网络参数，将时空少样本学习转变为扩散模型的预训练问题。该研究已被 ICLR2024 接收，数据代码均已开源。

其优势在于，通过预训练一个扩散模型，从源城市的数据中学习到有关优化神经网络参数的知识，然后根据提示生成适应目标城市的神经网络。

论文链接：
https://openreview.net/forum?id=QyFm3D3Tzi
数据集下载链接：
https://hyper.ai/datasets/30453

关注公众号，后台回复「清华 GPD」下载完整论文

覆盖多城市的人流与交通数据集

研究人员在两种类型的时空预测任务上进行了实验——人群流动预测、交通速度预测。

在人群流动预测中，研究人员在 3 个真实世界数据集上进行了实验，包括纽约市、华盛顿特区和巴尔的摩。每个数据集包含所有区域的每小时城市人流量。

在交通速度预测中，研究人员在 4 个真实世界数据集上进行了实验，包括 MetaLA 、 PEMS-BAy 、滴滴成都和滴滴深圳。

在上述两个测试任务中，研究人员将数据集分类为源城市与目标城市。例如，如果将某个特定城市设置为目标数据集，则假设只能访问有限数量的数据，如 3 天的数据（现有模型通常需要几个月的数据来训练模型），而扩散模型是使用源城市提供的丰富数据进行训练的。

双 buff 加持：预训练 + 提示微调

如下图所示，GPD 作为一种条件生成框架，共分为 3 个关键阶段：

(a) 神经网络准备阶段

研究人员针对每个源城市区域训练了单独的时空预测模型，并保存其优化后的网络参数。每个区域的模型参数都经过独立优化，转换为基于向量的格式，没有参数共享，以确保模型能够最大程度地适应各自区域的特征。

(b) 扩散模型预训练

该框架使用收集到的预训练模型参数作为训练数据，训练扩散模型来学习生成模型参数的过程。扩散模型通过逐步去噪来生成参数，可以在给定提示的情况下从噪声中生成神经网络参数。这个过程类似于从随机初始化开始的参数优化过程，因此能够更好地适应目标城市的数据分布。

(c) 神经网络参数生成

在预训练后，可以通过使用目标城市的区域提示来生成参数。这种方法利用提示促进了知识转移和精确参数匹配，充分利用了城市间区域之间的相似性。

其中，去噪网络的网络结构如下图所示：

如上图 (a) 所示该研究的去噪网络架构采用了基于 prompt 的 Transformer 扩散模型，在层分割 (layer segmentation) 之后，参数被重组为标记序列。

在去噪过程中，除了噪声序列外，Transformer 扩散模型还考虑了时间步长 k 和区域提示 p 。研究人员探索了多种调节方法，例如后适应调节、自适应规范调节，对 Transformer 层设计进行了微小但重要的修改，调整策略如上图 (b) 和 (c) 所示。

值得一提的是，在预训练-提示微调的框架中，提示的选择具有很高的灵活性，只要能够捕捉特定区域的特征即可。例如，可以利用各种静态特征，如人口、区域面积、功能和兴趣点 (POI) 的分布等。

这项工作从空间和时间两个方面利用区域提示：

* 空间提示来自于城市知识图谱中节点表征，仅利用区域邻接性和功能相似性等关系，这些关系在所有城市中都很容易获取；

* 时间提示来自于自监督学习模型的编码器。

GPD 在数据稀缺的场景中表现出色，性能提高 7.87%

为了评估所提框架的有效性，该研究在两类经典的时空预测任务上进行了实验：人群流动预测和交通速度预测，该研究表明，GPD 在数据稀缺的场景中表现出色，在四个数据集上比最佳基线平均提高了 7.87% 。

在华盛顿特区、巴尔的摩、洛杉矶和成都数据集中，与上表中划线标记的最佳基线方法相比，GPD 的平均误绝对差 (MAE) 分别降低了 4.31% 、 17.1% 、 2.1% 和 8.17% 。这表明，GPD 在不同数据场景下一致表现优越，实现了有效的神经网络参数层面的知识迁移。

此外，该研究还验证了 GPD 框架对于不同时空预测模型适配的灵活性。除了经典的时空图方法 STGCN 外，该研究还引入了 GWN 和 STID 作为时空预测模型，并使用扩散模型生成其网络参数。实验结果表明，框架的优越性不会受到模型选择的影响，因此可以适配各种先进的模型。

加速打造「实景三维中国」

近年来，随着新兴基础设施建设提速，时空数据的采集难题已经得到了很大程度上的缓解，加之如上述这一类少样本学习方法的成功应用，因地制宜的城市时空大数据平台已经在越来越多的城市落地。

人民日报在 2023 年 5 月的报道显示，国产卫星遥感影像自主保障率达 90% 以上；1∶50000 基础地理信息数据库保持按年度动态更新，1∶10000 基础地理信息数据陆地国土覆盖率达到 65% 。

据介绍，实景三维中国纳入数字中国建设整体布局规划并全面启动，国家和省、市、县协同推进地形级、城市级、部件级实景三维建设，产品覆盖从陆地表面向海洋、水下、地下等方面延伸。目前实景三维中国建设成果已实时接入国土空间基础信息平台，应用于第三次全国国土调查申报数据核查、国土变更调查变化图斑提取、国土空间规划编制论证与方案推演等工作中。

截至 2023 年 5 月，40 个智慧城市时空大数据平台建设完成，开展了面向自然资源监测管理、城市精细化管理、交通和市场监管等 400 余项行业应用系统，为城市精细化管理、经济发展和公众生活提供了实时、丰富、全面、权威的时空基础支撑。

可以肯定的是，在「数字中国」的大背景之下，以宜居、可持续发展为目标的智慧城市建设将持续深化，而时空数据、时空模型作为城市大脑的底座，重要程度不言而喻，相信在数据采集能力提升，以及少样本学习方法的迭代之下，时空预测也将更加准确。

参考资料：
https://www.gov.cn/lianbo/bumen/202305/content_6874554.htm

其优势在于，通过预训练一个扩散模型，从源城市的数据中学习到有关优化神经网络参数的知识，然后根据提示生成适应目标城市的神经网络。

论文链接：
https://openreview.net/forum?id=QyFm3D3Tzi
数据集下载链接：
https://hyper.ai/datasets/30453

关注公众号，后台回复「清华 GPD」下载完整论文

覆盖多城市的人流与交通数据集

研究人员在两种类型的时空预测任务上进行了实验——人群流动预测、交通速度预测。

在交通速度预测中，研究人员在 4 个真实世界数据集上进行了实验，包括 MetaLA 、 PEMS-BAy 、滴滴成都和滴滴深圳。

双 buff 加持：预训练 + 提示微调

如下图所示，GPD 作为一种条件生成框架，共分为 3 个关键阶段：

(a) 神经网络准备阶段

(b) 扩散模型预训练

(c) 神经网络参数生成

其中，去噪网络的网络结构如下图所示：

如上图 (a) 所示该研究的去噪网络架构采用了基于 prompt 的 Transformer 扩散模型，在层分割 (layer segmentation) 之后，参数被重组为标记序列。

这项工作从空间和时间两个方面利用区域提示：

* 空间提示来自于城市知识图谱中节点表征，仅利用区域邻接性和功能相似性等关系，这些关系在所有城市中都很容易获取；

* 时间提示来自于自监督学习模型的编码器。

GPD 在数据稀缺的场景中表现出色，性能提高 7.87%

加速打造「实景三维中国」

参考资料：
https://www.gov.cn/lianbo/bumen/202305/content_6874554.htm

其优势在于，通过预训练一个扩散模型，从源城市的数据中学习到有关优化神经网络参数的知识，然后根据提示生成适应目标城市的神经网络。

论文链接：
https://openreview.net/forum?id=QyFm3D3Tzi
数据集下载链接：
https://hyper.ai/datasets/30453

关注公众号，后台回复「清华 GPD」下载完整论文

覆盖多城市的人流与交通数据集

研究人员在两种类型的时空预测任务上进行了实验——人群流动预测、交通速度预测。

在交通速度预测中，研究人员在 4 个真实世界数据集上进行了实验，包括 MetaLA 、 PEMS-BAy 、滴滴成都和滴滴深圳。

双 buff 加持：预训练 + 提示微调

如下图所示，GPD 作为一种条件生成框架，共分为 3 个关键阶段：

(a) 神经网络准备阶段

(b) 扩散模型预训练

(c) 神经网络参数生成

其中，去噪网络的网络结构如下图所示：

如上图 (a) 所示该研究的去噪网络架构采用了基于 prompt 的 Transformer 扩散模型，在层分割 (layer segmentation) 之后，参数被重组为标记序列。

这项工作从空间和时间两个方面利用区域提示：

* 空间提示来自于城市知识图谱中节点表征，仅利用区域邻接性和功能相似性等关系，这些关系在所有城市中都很容易获取；

* 时间提示来自于自监督学习模型的编码器。

GPD 在数据稀缺的场景中表现出色，性能提高 7.87%

加速打造「实景三维中国」

参考资料：
https://www.gov.cn/lianbo/bumen/202305/content_6874554.htm

Command Palette

基于 7 大城市实景数据，清华大学团队开源 GPD 模型

覆盖多城市的人流与交通数据集

双 buff 加持：预训练 + 提示微调

GPD 在数据稀缺的场景中表现出色，性能提高 7.87%

加速打造「实景三维中国」

Command Palette

基于 7 大城市实景数据，清华大学团队开源 GPD 模型

覆盖多城市的人流与交通数据集

双 buff 加持：预训练 + 提示微调

GPD 在数据稀缺的场景中表现出色，性能提高 7.87%

加速打造「实景三维中国」

相关报道

数据集汇总丨从医疗影像/临床数据，到细胞图谱/医学问答，10 大数据集覆盖多类疾病场景

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能，Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

推理速度提升 3 倍，多伦多大学等提出 dnaHNet，基因组学习计算成本降低近 4 倍

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

深度估计准确率冲上 0.9，Meta 提出 VLM³，论证视觉模型天生会学 3D，以 Qwen3-VL-4B 为基础实现多任务的统一建模

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

OpenAI 发布 GeneBench-Pro，在 129 个问题/10 个领域内评估 AI 科研能力

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

Command Palette

基于 7 大城市实景数据，清华大学团队开源 GPD 模型

覆盖多城市的人流与交通数据集

双 buff 加持：预训练 + 提示微调

GPD 在数据稀缺的场景中表现出色，性能提高 7.87%

加速打造「实景三维中国」

相关报道

数据集汇总丨从医疗影像/临床数据，到细胞图谱/医学问答，10 大数据集覆盖多类疾病场景

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能，Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

推理速度提升 3 倍，多伦多大学等提出 dnaHNet，基因组学习计算成本降低近 4 倍

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

深度估计准确率冲上 0.9，Meta 提出 VLM³，论证视觉模型天生会学 3D，以 Qwen3-VL-4B 为基础实现多任务的统一建模

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

OpenAI 发布 GeneBench-Pro，在 129 个问题/10 个领域内评估 AI 科研能力

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

相关报道

数据集汇总丨从医疗影像/临床数据，到细胞图谱/医学问答，10 大数据集覆盖多类疾病场景

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能，Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

推理速度提升 3 倍，多伦多大学等提出 dnaHNet，基因组学习计算成本降低近 4 倍

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

深度估计准确率冲上 0.9，Meta 提出 VLM³，论证视觉模型天生会学 3D，以 Qwen3-VL-4B 为基础实现多任务的统一建模

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

OpenAI 发布 GeneBench-Pro，在 129 个问题/10 个领域内评估 AI 科研能力

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

相关报道

数据集汇总丨从医疗影像/临床数据，到细胞图谱/医学问答，10 大数据集覆盖多类疾病场景

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能，Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

推理速度提升 3 倍，多伦多大学等提出 dnaHNet，基因组学习计算成本降低近 4 倍

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

深度估计准确率冲上 0.9，Meta 提出 VLM³，论证视觉模型天生会学 3D，以 Qwen3-VL-4B 为基础实现多任务的统一建模

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

OpenAI 发布 GeneBench-Pro，在 129 个问题/10 个领域内评估 AI 科研能力

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集