一文了解 AlphaFold 2 背后的 PDB 蛋白质结构数据集

DeepMind 的最新一代算法 AlphaFold 2,在近日被称为「蛋白质奥林匹克竞赛」的 CASP 中,完虐其它对手,取得惊人的突破,震惊整个科研圈。在被这项科研成果刷屏之后,我们来了解一下该算法背后的数据集。

这两天,我们被 DeepMind 的新一代人工智能算法 AlphaFold 2 刷屏了,尤其是生物界,可谓迎来了里程碑式的大突破。

据 DeepMind 官方宣布,其深度学习算法 AlphaFold 2,已经成功解决过去 50 年以来生物领域的大难题。

该算法能够精确地基于氨基酸序列,预测蛋白质的 3D 结构,其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的 3D 结构相媲美。

CASP 竞赛自由建模类别中的两个目标蛋白质示例绿色为实验观测结果,蓝色为 AlphaFold 2 预测结果

这一里程碑式的事件,令生物学家振奋,但同时也让很多业内人士瑟瑟发抖,直呼要转行去学深度学习了。

不过,在大家都关注这项科研结果的时候,别忘了它背后的功臣—— PDB 蛋白质结构数据集,一个专门收录蛋白质及核酸的三维结构资料的数据集。

划时代意义的突破,离不开这个数据集

据 DeepMind 介绍,团队在公开数据上训练这一系统,这些数据来自蛋白质结构数据集 PDB,和包含未知结构蛋白质序列的大型数据库 UniProt,共包括约 170,000 个蛋白质结构。

其中,PDB 是一个专门收录蛋白质及核酸的三维结构资料的数据集,拥有十分悠久的历史,可以追溯到 1971 年。

当年美国布鲁克黑文国家实验室的 Walter Hamilton 决定建立这个数据库。1998 年 10 月,PDB 被移交给 Research Collaboratory for Structural Bioinformatics(RCSB,结构生物信息学研究联合实验室),由罗格斯大学的 Helen M. Berman 负责,他也是 RCSB 成员。

布鲁克黑文国家实验室成立于 1947 年其历史上的科研发现曾 5 次获得诺贝尔奖

2003 年,PDB 发展成为一个国际性组织 wwPDB(全球蛋白质数据库),来监管 PDB 的资源。wwPDB 的其他成员,包括 PDBe(欧洲)、RCSB(美国)、PDBj(日本)也为 PDB 提供了数据积累、处理和发布的中心。

wwPDB 的资源向全球公众免费开放

值得一提的是,虽然 PDB 的数据是由世界各地的科学家提交的,但每条提交的数据都会经过 wwPDB 工作人员的审核与注解,并检验数据是否合理。PDB 及其提供的软件现在对公众免费开放。

超 14 万个结构,PDB 里都哪些信息?

在过去的几十年里,PDB 的结构数量以接近指数的速度增长:

  • 1982 年的 100 个;
  • 1993 年的 1000 个;
  • 1999 年的 10,000 个;
  • 2014 年的 100,000 个。

不过,自 2007 年以来,新蛋白质结构的积累速率似乎已经趋于稳定。

PDB 数据集新增结构逐年递增,规模庞大

世界各地的结构生物学家,使用诸如 X 射线晶体学、NMR 光谱和冷冻电镜等方法,来确定每个原子在分子中相对于彼此的位置。然后他们会提交此结构信息, wwPDB 对其进行批注并公开发布到数据库中。

你可以在 PDB 数据集查找核糖体、致癌基因、药物靶标,甚至整个病毒的结构,不过,PDB 里存档的结构数量规模巨大,找到所需信息可能是一项并不轻松的工作。

PDB 数据集中的信息主要包含:蛋白质/核酸来源,蛋白质/核酸分子组成,原子坐标,测定结构所用实验方法,以及温度因子、结构测定者等其它数据及信息。

数据集预览,其中包含蛋白质/核酸结构、测定结构所用实验方法等信息

 如何下载? 

现在,该数据集已在超神经官方网站以及 openbayes.com 上线,访问:https://hyper.ai/datasets/13906  或点击「阅读原文」,就可一键获取数据集。

■ PDB 蛋白质结构数据集详情

发布时间:1971 年起收集

发布机构:wwPDB

包含数量:14 万+ 个蛋白质/核酸结构

数据格式:csv 文件

数据大小:27 MB(解压后 146MB)

下载地址:https://hyper.ai/datasets/13906

DeepMind 同款数据集,你也值得拥有~


 如何使用? 

我们的合作伙伴 OpenBayes ,一个针对机器学习提供云端算力的云服务。他们拥有大规模的超算集群,GPU 集群架构专针对矩阵计算设计,面向 AI 应用提供算力容器,而且上手非常简单,开箱即用。

目前 OpenBayes 的算力容器产品已经支持 TensorFlow、PyTorch、MXNet 等 CPU 和 GPU 环境下,不同版本、类型的标准机器学习框架和各种常用依赖。

目前 OpenBayes 算力容器支持的标准库并提供 CPU、NVIDIA T4、NVIDIA Tesla V100 等多种算力资源,无论是海量数据的集中训练,还是低功耗的模型常驻运行,都能轻松满足用户需求。

从 CPU 到 T4 再到 V100, 丰富的算力容器配置 OpenBayes 支持脚本上传和 JupyterLab 编辑器在线编程,然后进行模型训练。

清晰简洁的执行过程完整教程:https://openbayes.com/docs/quickstart/
 注册新用户,即可享受 GPU 算力 

访问 openbayes.com,在官网首页点击立即注册,而且内测期间周周有赠哦,再也不用跟同学、同事抢算力了~

数据集可在公共资源直接使用/下载

 活动说明 访问 openbayes.com 凭邀请码【HyperAI】 注册新用户即可享受

免费 CPU 额度:300 分钟/周

免费 vGPU 额度:180 分钟/周

PDB 完整数据集获取:

https://www.rcsb.org/#Category-download

PDB 数据集中的文件可直接用文本编辑器查看,但使用可视化工具查看效果更佳,官方推荐的查看程序 Swiss PDB viewer:

https://spdbv.vital-it.ch/disclaim.html#

其它参考资料:

http://www.wwpdb.org/

https://www.novopro.cn/articles/201912021193.html

—— 完 ——

抱歉,暂无相关内容推荐。