一文了解 AlphaFold 2 背后的 PDB 蛋白质结构数据集

DeepMind 的最新一代算法 AlphaFold 2,在近日被称为「蛋白质奥林匹克竞赛」的 CASP 中,完虐其它对手,取得惊人的突破,震惊整个科研圈。在被这项科研成果刷屏之后,我们来了解一下该算法背后的数据集。
这两天,我们被 DeepMind 的新一代人工智能算法 AlphaFold 2 刷屏了,尤其是生物界,可谓迎来了里程碑式的大突破。
据 DeepMind 官方宣布,其深度学习算法 AlphaFold 2,已经成功解决过去 50 年以来生物领域的大难题。
该算法能够精确地基于氨基酸序列,预测蛋白质的 3D 结构,其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的 3D 结构相媲美。

这一里程碑式的事件,令生物学家振奋,但同时也让很多业内人士瑟瑟发抖,直呼要转行去学深度学习了。
不过,在大家都关注这项科研结果的时候,别忘了它背后的功臣—— PDB 蛋白质结构数据集,一个专门收录蛋白质及核酸的三维结构资料的数据集。
划时代意义的突破,离不开这个数据集
据 DeepMind 介绍,团队在公开数据上训练这一系统,这些数据来自蛋白质结构数据集 PDB,和包含未知结构蛋白质序列的大型数据库 UniProt,共包括约 170,000 个蛋白质结构。
其中,PDB 是一个专门收录蛋白质及核酸的三维结构资料的数据集,拥有十分悠久的历史,可以追溯到 1971 年。
当年美国布鲁克黑文国家实验室的 Walter Hamilton 决定建立这个数据库。 1998 年 10 月,PDB 被移交给 Research Collaboratory for Structural Bioinformatics(RCSB,结构生物信息学研究联合实验室),由罗格斯大学的 Helen M. Berman 负责,他也是 RCSB 成员。

2003 年,PDB 发展成为一个国际性组织 wwPDB(全球蛋白质数据库),来监管 PDB 的资源。 wwPDB 的其他成员,包括 PDBe(欧洲)、 RCSB(美国)、 PDBj(日本)也为 PDB 提供了数据积累、处理和发布的中心。

值得一提的是,虽然 PDB 的数据是由世界各地的科学家提交的,但每条提交的数据都会经过 wwPDB 工作人员的审核与注解,并检验数据是否合理。 PDB 及其提供的软件现在对公众免费开放。
超 14 万个结构,PDB 里都哪些信息?
在过去的几十年里,PDB 的结构数量以接近指数的速度增长:
- 1982 年的 100 个;
- 1993 年的 1000 个;
- 1999 年的 10,000 个;
- 2014 年的 100,000 个。
不过,自 2007 年以来,新蛋白质结构的积累速率似乎已经趋于稳定。

世界各地的结构生物学家,使用诸如 X 射线晶体学、 NMR 光谱和冷冻电镜等方法,来确定每个原子在分子中相对于彼此的位置。然后他们会提交此结构信息, wwPDB 对其进行批注并公开发布到数据库中。
你可以在 PDB 数据集查找核糖体、致癌基因、药物靶标,甚至整个病毒的结构,不过,PDB 里存档的结构数量规模巨大,找到所需信息可能是一项并不轻松的工作。
PDB 数据集中的信息主要包含:蛋白质/核酸来源,蛋白质/核酸分子组成,原子坐标,测定结构所用实验方法,以及温度因子、结构测定者等其它数据及信息。

如何下载?
现在,该数据集已在超神经官方网站以及 openbayes.com 上线,访问:https://orion.hyper.ai/datasets/13906 或点击「阅读原文」,就可一键获取数据集。
■ PDB 蛋白质结构数据集详情
发布时间:1971 年起收集
发布机构:wwPDB
包含数量:14 万+ 个蛋白质/核酸结构
数据格式:csv 文件
数据大小:27 MB(解压后 146MB)
下载地址:https://orion.hyper.ai/datasets/13906
DeepMind 同款数据集,你也值得拥有~
如何使用?
我们的合作伙伴 OpenBayes ,一个针对机器学习提供云端算力的云服务。他们拥有大规模的超算集群,GPU 集群架构专针对矩阵计算设计,面向 AI 应用提供算力容器,而且上手非常简单,开箱即用。
目前 OpenBayes 的算力容器产品已经支持 TensorFlow 、 PyTorch 、 MXNet 等 CPU 和 GPU 环境下,不同版本、类型的标准机器学习框架和各种常用依赖。

目前 OpenBayes 算力容器支持的标准库并提供 CPU 、 NVIDIA T4 、 NVIDIA Tesla V100 等多种算力资源,无论是海量数据的集中训练,还是低功耗的模型常驻运行,都能轻松满足用户需求。

从 CPU 到 T4 再到 V100, 丰富的算力容器配置 OpenBayes 支持脚本上传和 JupyterLab 编辑器在线编程,然后进行模型训练。

清晰简洁的执行过程完整教程:https://openbayes.com/docs/quickstart/
注册新用户,即可享受 GPU 算力
访问 openbayes.com,在官网首页点击立即注册,而且内测期间周周有赠哦,再也不用跟同学、同事抢算力了~

活动说明 访问 openbayes.com 凭邀请码【HyperAI】 注册新用户即可享受
免费 CPU 额度:300 分钟/周
免费 vGPU 额度:180 分钟/周
PDB 完整数据集获取:
https://www.rcsb.org/#Category-download
PDB 数据集中的文件可直接用文本编辑器查看,但使用可视化工具查看效果更佳,官方推荐的查看程序 Swiss PDB viewer:
https://spdbv.vital-it.ch/disclaim.html#
其它参考资料:
https://www.novopro.cn/articles/201912021193.html
—— 完 ——