Harvard Develops AI-Powered Molecular Microscope for Precise Observation of Gene Regulation
哈佛大学的一个研究团队开发了一种由人工智能驱动的分子级“显微镜”,这项技术为研究DNA调控元件提供了新的有力工具。通过这种技术,科学家们可以在更高的精度下观察和理解基因调控过程,从而揭示转录因子如何在不同的细胞类型、组织和器官中调节基因表达,进而发现这些转录因 子的新功能以及与疾病相关的过程。 研究之前,科学家已经使用了DNase I和MNase等酶类来通过DNA足迹法确定蛋白质在DNA上的结合位置。然而,这些方法通常较为复杂且难以整合单一细胞测序的技术。鉴于近年来单细胞ATAC-seq(scATAC-seq)技术逐渐成熟,以及单细胞多组学的快速进展,研究团队认为这是一个使用ATAC-seq实现单细胞数据中蛋白质结合检测的好时机。 研究早期,他们的主要工作集中在如何消除Tn5转座子本身序列偏向造成的干扰,以及建立一个可靠的统计模型来检测蛋白质的结合情况。经过多次努力,他们成功地开发出一种有效的方法,能够精确地检测不同长度蛋白质在DNA上的结合位置。 然而,在课题的中期,研究人员遇到了一个难题:检测结合力较弱或结合时间较短的转录因子。这些转录因子并不会对DNA产生足够的保护作用,因此在它们的信号区域也没有留下明显的“足迹”。直到有一天,研究人员想到了一个创新的思路:即使这些“隐形”的转录因子和其他能留下可见足迹的蛋白质之间存在强烈的依赖关系和约束条件,是否可以通过AI辅助,利用可见信号来预测这些不可见的结合状态呢? 为了实现这一想法,研究团队尝试了多个版本。最终,他们发现利用DNA序列预测蛋白质结合的模型seq2PRINT可以有效捕捉到这种已知依存关系,并且能够准确地预测“隐身”转录因子的具体结合位置。 值得注意的是,seq2PRINT最初构建的主要目的是研究DNA序列和蛋白质结合的依赖关系,而不是专门用于预测转录因子的结合。“因此,这个问题实际上通过对非常规训练数据之外的方式得以解决。” 胡哲表示。 近日,相关论文《多尺度足迹揭示顺式调控元件的组织》(Multiscale footprints reveal the organization of cis-regulatory elements)已在《自然》杂志上发表。该论文的第一作者是胡哲和张若墨博士后,另一位共同第一作者是马克·霍尔贝克博士后(Max Horlbeck),通讯作者是哈佛大学的杰森·D·布埃诺斯特罗教授(Jason D. Buenrostro)。
