Tahoe-x1: KI-Modell revolutioniert Krebsforschung durch präzise Gen- und Therapienachweise
美国生命科学公司Tahoe Bio(前身为Vevo Therapeutics)近日正式发布其自主研发的AI基础模型Tahoe-x1(Tx1),标志着人工智能在生命科学领域的应用迈入新阶段。该模型拥有30亿参数,专为解析基因、细胞与药物之间的复杂交互关系而设计,基于Transformer编码器架构,采用掩码语言建模(MLM)进行预训练,训练数据涵盖2.66亿单细胞转录组谱,其中包括公司自建的Tahoe-100M扰动数据集——记录了上千种分子对癌症细胞系的扰动响应,已被全球科研人员下载近20万次。为提升实用性,Tahoe-x1提供多尺寸版本(如Tx1-70M),并结合FlashAttention v2等优化技术,实现比同类细胞模型高3至30倍的计算效率,可在普通GPU上高效运行,显著降低科研门槛。 在功能层面,Tahoe-x1展现出三大核心能力。首先,在基因必需性预测任务中,其在权威DepMap数据集上的表现全面超越现有模型,能精准识别不同癌症亚型中维持肿瘤生存的“核心驱动基因”,助力快速锁定高价值靶点,尤其适用于异质性强、治疗困难的癌症类型。其次,模型具备解析复杂分子协同网络的能力,可在MSigDB数据库测试中以最高准确率还原“癌变标志通路”,如细胞周期失控、DNA修复缺陷等关键生物学程序,为多靶点联合疗法提供系统性依据。最引人注目的是其零样本泛化能力——即使面对未见过的细胞类型或患者样本,模型也能基于已有知识进行类比推理,预测药物反应。这一特性使虚拟临床试验成为可能,研究人员可在计算机中模拟成千上万种治疗方案,筛选最优组合,大幅降低研发试错成本与失败风险。结合后训练框架,模型还可适配多样化患者背景,加速个性化疗法落地。 Tahoe Bio已累计融资4200万美元,正致力于构建包含10亿数据点的全球最大单细胞扰动图谱。此次发布不仅开源模型权重(Hugging Face)、代码(GitHub)及交互式演示,预印本亦已上线bioRxiv,充分推动科研协作。业内普遍认为,Tahoe-x1的突破在于其从“统计相关性”迈向“机制理解力”——模型不再仅依赖数据模式,而是能模拟生物系统中基因调控、药物干预与细胞响应的内在逻辑。这预示着药物研发正从“试错式”向“预测式”范式转型。随着数据持续积累,Tahoe-x1有望成为精准医疗的核心基础设施,在虚拟世界中预演万千治疗路径,最终为每位患者精准匹配最有效的治疗方案,实现真正意义上的个体化医学。
