今年诺贝尔奖对 AI 的「偏爱」再一次将 AI for Science 推向大众视野,甚至可以说是一次里程碑事件,标志着全新科研范式已然是大势所趋。回望科学发展进程,从实验科学到理论科学,再到计算科学与数据密集型科学,每一次范式转变都极大地推进了人类文明的进步,而在整个迭代的过程中,数据的核心作用从未改变。
如今,进入 AI for Science 时代,数据价值得以进一步挖掘,基础科研领域又将迎来哪些革新?垂直领域的研究人员如何拥抱 AI?
面对 AI for Science 的发展浪潮,HyperAI 超神经通过解读前沿成果、报道典型企业、举办学术活动等多种形式,推动国内 AI4S 发展,为国内科研人员搭建交流平台。 11 月 2 日,HyperAI 超神经作为联合出品社区,在 COSCon’24 第九届中国开源年会暨开源社十周年嘉年华期间,举办了 AI for Science 方向的开源 AI 论坛。
我们有幸邀请到了 OpenBayes 贝式计算创始人兼 CEO 王臣汉,浙江大学地球科学学院专聘研究员戚劲,上海交通大学长聘轨副教授、上海人工智能实验室青年科学家谢伟迪,以及清华大学电子工程系城市科学与计算研究中心博士后研究员丁璟韬。
在本次论坛中,4 位讲师分别围绕医疗人工智能 (AI4Health) 、地理信息人工智能 (GeoAI) 、科研智算云平台以及 AI 驱动的城市复杂系统等方向,从知识科普、案例介绍、趋势分析等方面进行了深度分享。
随后,我们会将各位讲师的分享以文字实录与视频的形式,进一步报道干货内容,敬请期待!
OpenBayes 贝式计算是国内领先的人工智能服务商,在赋能国内一流高校及研究机构的过程中,其对于 AI for Science 的发展也有着深刻的洞察。针对机器学习推动前沿研究发展的价值,公司创始人兼 CEO 王臣汉提出了一个创新的公式:规模数据 X 模型结构 = AI 科研成绩 – 传统研究。
即在科研过程中,通过将规模化的数据应用于有效的模型结构,便能在任何一个工业领域的落地研究课题上大幅超越传统方法,这便是 AI 驱动的科研能够在近两年内实现了 2-5 倍增长的重要原因。
同时,王臣汉还强调,如果保持模型结构不变而一味地增加数据量,则可能会产生边际效应,导致性能提升困难;同样地,当数据规模一定时,模型参数也并非越大越好。只有当数据规模和参数规模都同等匹配增大时,其预测的失误率将会下探到一个较低水平。
此外,他着重对比了传统研究方法与 AI 研究方法的差异。其中,传统研究方法高度依赖于科研人员自身的特征和问题定义能力,只采用「小数据」,在泛化能力和拓展能力上存疑。而 AI 研究方法则需要引入大规模、高质量数据,并采用机器学习进行特征抽取,如此产生的科研结果在真实世界的问题中仍然有效。
最后,王臣汉还介绍了 OpenBayes 贝式计算是如何赋能 AI for Science 的——将开源数据集、 AI/HPC 教程、开源/私有模型等科研数据要素封装到一个集群软件中,帮助科研人员实现模型构建、模型推理、工业软件计算等方面实现一站式衔接。
在地理信息科学领域,空天地底立体观测技术的发展促进了数据爆发,从而催生了时空大数据概念,但不同尺度的时空过程所产生的海量数据对于信息的挖掘也是一大挑战。
浙江大学地球科学学院专聘研究员戚劲博士介绍道,地理关系回归分析是地理建模的研究热点,发展新的空间回归分析方法,提升地理关系的分析挖掘能力,对于理解社会过程和地理现象具有重要的理论价值与实践意义。
针对于此,戚劲博士及其所在团队融合空间加权思想与神经网络模型,提出了地理神经网络加权回归模型 (GNNWR),扩展了空间回归方法对地学要素非线性关系的拟合与解释能力。同时,该团队还发构建了基于 PyTorch 的开源模型库——时空智能回归模型,其方法体系已在地理、地质、海洋、大气等方向支撑了 30 余项研究。
在应用方面,他介绍了 GNNWR 模型在城市房价预测、大气污染分析、近海生态环境建模等场景下的表现:
* 在沿海的稀疏采样点和未知点之间建立时空关系,并解算时空非平稳权重,从而获得近岸海域的溶解硅酸盐 (DSi) 的高时空分辨率分布;
* GNNWR 能够精确地描述城市环境下的空间非平稳性,从而对房价等城市地理过程进行回归建模;
* 利用经过处理的 AOD 、 DEM 以及分站采集的气候因子数据和 PM2.5 数据,建立空间非平稳的回归关系并估算 PM2.5 浓度;
* 在 GNNWR 中融合 Shapley 的可解释理论,实现了对复杂空间环境下地质成矿情况的精确预测和解释。
上海交通大学长聘轨副教授、上海人工智能实验室青年科学家谢伟迪深耕于计算机视觉,在 2022 年回国后便投入到了医学人工智能的研究中,在本次论坛中,他从开源数据集构建、模型开发等多个角度分享了团队的成果。
谢伟迪教授介绍道,医学、尤其是循证医学领域的知识,大多都是从人类的经验中总结而来,一位初学者如果能够穷尽所有医学书籍,至少能够成为理论上的医学专家,所以,在模型训练过程中,也希望能够将所有医疗知识注入其中。
但在医疗领域,由于隐私问题,高质量数据相对稀缺,所以谢伟迪教授在其回国后便联合团队开始着手构建大规模的医疗数据集,具体而言:
* 从 PubMed Central 收集到 160 万对大型图像-标题配对数据,构建了 PMC-OA 数据集;
* 从 PMC-OA 中生成了 227,000 个医学视觉问答对,构成了 PMC-VQA;
* 从 Radiopaedia 种收集了 53,000 个病例,48,000 个多图像-标题对,构建了 Rad3D 数据集。
* PubMed Central (PMC) 是一个由美国国家生物技术信息中心创建和维护的免费全文数据库,专门收录生物医学和生命科学领域的开放获取学术文章。
* Radiopaedia 提供高质量且免费的放射学和医学影像知识,是一个协作的开放编辑平台,放射科医生/学生以及其他医疗专业人士可以在此贡献病例、文章和影像示例。
在模型的构建方面,他主要介绍了团队开发的医学专用的语言模型或视觉-语言模型,例如 PMC-LLaMA 、多语言医疗模型 MMedLLaMA 等,以及 SAT 等通用分割模型等。
清华大学电子工程系城市科学与计算研究中心丁璟韬博士的主要研究方向为 AI 驱动的时空复杂系统生成式建模及应用,在本次分享中,丁璟韬博士重点介绍了面向城市复杂系统建模的时空生成式 AI 。
丁璟韬博士介绍道,目前城市复杂系统建模面临的主要难点有高维、多模态的时空数据占主导地位;系统规模巨大,各要素间相互作用无法忽略;各系统数据分布迥异,无法通用建模等等。
针对于此,他及团队开始探索面向城市复杂系统建模的时空生成式 AI,面向人流移动模拟提出了物理知识指导的扩散模型;面向系统韧性预测提出了网络动力学增强的扩散模型;面向通用时空预测提出了提示学习增强的时空 GPT 。
具体而言:
* 人流移动模拟模型 SPDiff 基于真实行人移动数据集,实现了性能提升 6.5%-37.2,以及小样本下更好的泛化能力;
* 系统韧性预测模型基于扩散模型生成韧性/非韧性系统的观测样本,仅用 20 条 (2%) 标记样本,维持预测精度 87% (F1 分数);
* 通用时空预测模型 UniST,收集 20+ 时空数据集, 超过 1.3 亿 个时空样本点,通过外挂时空记忆网络,存储有效时空模式,生成 prompt 提示向量实现迁移泛化。
作为最早一批关注到 AI for Science 发展的开源社区,HyperAI 超神经未来将持续关注国内外的前沿创新成果,为大家提供干货解读与报道,同时,我们还在通过线上直播与线下学术论坛的丰富形式,为研究人员搭建沟通交流的平台,欢迎从事相关研究的课题组向我们投稿或分享最新研究成果!