生物信息学 | 借助 AI 更高效地开启研究

特色图像

提到生物信息学,其中最广为人知的就是 AlphaFold 。

AlphaFold 是一个深度学习系统,由 DeepMind 首次于 2018 年发布,主要用于预测蛋白质结构,被诸多业内人士评价为「彻底改变了生物学」。

AlphaFold 蛋白质结构数据库
支持蛋白质、基因或序列搜索

其实,除去类似 AlphaFold 这类广为人知的生物信息学进展外,AI 在同源搜索、多重比对及系统发育构建、基因组序列分析、基因发现等生物学领域中,都有丰富的应用案例。

以纳米毒理学为例,基于图像的人类细胞分析过程漫长又容易出错,手动分析图像、逐一比较每个细胞的扫描图像,需要花费大量的时间。

借助免费开源软件 CellProfiler,没有编程基础的生物学家,也可以开箱即用地使用图像分析算法,探索银纳米粒子 (AgNPs) 对肝细胞的影响。

CellProfiler 于 2003 年上线
目前其项目团队位于 MIT &哈佛 Broad 研究所

生物信息学技能对于当代生命科学研究已经变得至关重要,作为一名生物学研究人员,能熟练地将机器学习工具,整合到数据分析中,必将加速科学发现、提升科研效率。

本文将从工具资源、方式方法、同行交流等角度,简述生物学家如何利用 AI,摆脱大量重复实验、加速传统科研进程。

熟悉常用的人工智能工具

AI 在提升科研效率上具有重要意义。图像分析算法可以帮助科研人员更迅速、更定量地比较细胞特性,将其从海量重复性工作中解放出来,而自适应学习 (adaptive learning) 又可以进一步加速这个过程。

此外 AI 通常还可以检测出用户想不到的差异或比较模式。通过将 AI「看到」的内容转化为数值数据,复杂的生物图像就可以转化为一个相对直接的数学问题,最终成为一个数据科学问题。

以 CellProfiler 为例,这个在线开源工具界面简洁、开箱即用,可以运行大量机器学习及深度学习算法,允许用户自定义 Pipeline,对量化 shapes 、 characteristics 以及 patterns 进行自动化分析。

此外,还有 ilastik 、 QuPath 、 CDeep3M 等开源 AI 工具,无需强编程背景,只需加以练习便可以使用此类工具解决细胞及图像分析问题。

提升职业技能,缩小同行差距

当代生物信息学家需要从以下几个方面出发,提升自己的职业技能:

  1. 具备一定的编程能力,掌握类似 Python 这样的通用编程语言,并能熟练借助 Python 进行文本处理、科学计算、 web 服务等任务;
  2. 有意识的培养自身基础的数学及统计能力,这对职业发展有很大帮助;
  3. 善于利用工具,无论是 scikit-learn 机器学习库,还是 ChatGPT,这些工具可以降低 AI 相关知识的学习门槛;
  4. 自学高质量网络课程,可以参考 Coursera 、 edX 、 Udacity 等在线平台的优质课程;
  5. 参与线上线下研讨会,加深与同行的交流,分享学习前沿方法

追求长期价值,关注实际成果

对传统科研来说,追求时下最新的技术并不是必需的。

AI 技术日新月异,但科学并不会每周都有变化,如果科研人员每天都忙于整合最新的工具、追赶文献进展,必然会陷入筋疲力尽的状态,倒不如停下来思考一下哪些方法和进展对于自己的科研而言最有用。

虽然计算机在处理生物图像分析任务时,具有高效、能自定义规则等优点,但需要注意的是,在科研过程中引入 AI,要特别关注不确定性及人类偏见这类风险和挑战,力求成果中立可信,且具备可解释性。

同时数据管理对于 AIForScience 而言也是一大挑战,有些项目会产生数以百兆计的图像和测量数据,当代科研项目大多以交叉学科为主,需要更多具备高维数据处理能力以及充分数据科学知识的专业人才加入项目团队。

提升全球视野,从社区中学习

生物科学领域有一些很活跃的在线社区及优质项目地址,这些群组汇集来自全球各地的 AI 和生物学交叉学科的用户,有些成员也非常乐于分享。

这些资源包括:

* forum.image.sc:科学图像软件讨论小组,由 Broad 研究所与威斯康星大学麦迪逊分校合作设立

* BioStars.org:在线讨论小组,主要关注生物信息学、计算基因组学及生物数据分析

* GitHub.com:生物信息学相关项目示例及代码

此外,提升 AI 技能的最佳方式是实践,除参与讨论、学习他人经验外,生物信息学家还可以通过尝试 Kaggle 上的一系列竞赛项目,在实操的过程中玩转 AI 程序和工具。

学科交叉的趋势势不可挡,合理恰当地使用 AI,必将成为生物科学发展的一个重要推动力,希望每位生物学家都能从当下做起,借助 AI 加速科研进度、创新思考方式。