Tahoe Bio重磅发布Tahoe-x1模型,AI“解码”生命语言,癌症研究迎来计算效率革命
美国生命科学公司Tahoe Bio(前身为Vevo Therapeutics)近日正式发布其突破性AI基础模型Tahoe-x1(Tx1),标志着人工智能在生命科学领域迈入新纪元。该模型拥有30亿参数,专为解析基因、细胞与药物之间的复杂关系而设计,是首个将AI从“辅助工具”提升为“生命系统建模引擎”的代表性成果,为癌症靶点发现与个性化治疗带来革命性变革。 Tahoe-x1基于Transformer编码器架构,采用掩码语言建模(MLM)进行预训练,训练数据涵盖高达2.66亿个单细胞转录组,其中包含公司自建的Tahoe-100M扰动数据集——该数据集记录了上千种分子干预对癌症细胞系的响应,已被全球科研人员下载近20万次,成为当前最全面的单细胞扰动资源之一。为提升实用性,模型家族提供多种尺寸版本(如Tx1-70M),并集成FlashAttention v2等先进优化技术,实现比同类细胞模型高3至30倍的计算效率,即使在普通GPU上也能流畅运行,显著降低科研门槛。 在核心能力方面,Tahoe-x1展现出远超现有模型的性能。在基因必需性预测任务中,其在权威DepMap数据集上的表现全面领先,能精准识别不同癌症亚型中维持肿瘤生存的“关键驱动基因”,极大加速靶点筛选进程,尤其适用于异质性强、治疗困难的肿瘤类型。更关键的是,该模型不仅能识别单个基因,还能自动还原癌变过程中的协同分子通路。在MSigDB数据库测试中,其对“癌变标志通路”(hallmark programs)的识别准确率居全球首位,可清晰解析细胞周期失控、DNA修复缺陷等核心生物学机制,为多靶点联合治疗提供系统性依据。 最令人瞩目的突破在于其“零样本泛化”能力——面对从未见过的细胞类型或患者样本,模型仍能基于已有知识进行类比推理,预测其对特定药物的响应。这意味着,未来药物研发可在虚拟环境中模拟成千上万种治疗方案,提前筛选最优组合,大幅减少实验室试错与临床失败风险。结合后训练框架,模型还可适配多样化患者背景,推动个性化癌症疗法的快速落地。 Tahoe Bio已累计融资4200万美元,正致力于构建包含10亿数据点的全球最大单细胞扰动图谱。此次,公司不仅开源模型权重与代码,还提供交互式演示,并将预印本发布于bioRxiv,全面开放科研协作。AIbase指出,Tahoe-x1的真正价值在于其从“相关性分析”迈向“机制理解”的跃迁——当AI能像生物学家一样思考基因调控、药物干预与细胞响应的内在逻辑,药物研发范式将从“试错”转向“预测”。 随着数据持续积累,Tahoe-x1有望成为精准医疗的底层基础设施,在虚拟世界中预演万千治疗路径,只为在现实世界中,为每一位患者争取到最有效的治疗机会。
