Tahoe Bio发布Tahoe-x1模型,AI破译生命语言,推动癌症研究计算效率革命
美国生命科学公司Tahoe Bio(前身为Vevo Therapeutics)近日正式发布其革命性AI基础模型Tahoe-x1(Tx1),一个专为解码基因、细胞与药物之间复杂关系而设计的30亿参数大模型。该模型的推出,标志着人工智能正从科研辅助工具跃升为能够模拟生命系统运行机制的“智能引擎”,为癌症靶点发现与个性化治疗带来计算效率的颠覆性突破。 Tahoe-x1基于Transformer编码器架构,采用掩码语言建模(MLM)进行预训练,训练数据涵盖2.66亿个单细胞转录组,其中包含公司自建的Tahoe-100M扰动数据集——该数据集记录了上千种分子对癌症细胞系的干预反应,已在全球科研界被下载近20万次。为提升实用性,模型提供多尺寸版本(如Tx1-70M),并结合FlashAttention v2等优化技术,实现比同类细胞模型高3至30倍的计算效率,即使在普通GPU上也能高效运行,显著降低科研门槛。 在关键能力上,Tahoe-x1表现卓越。其在基因必需性预测任务中,于权威DepMap数据集上全面超越现有模型,能精准识别不同癌症亚型中维持肿瘤生存的“核心驱动基因”,大幅加速靶点发现进程,尤其适用于异质性强的难治性癌症。此外,模型能自动还原癌变过程中的协同信号通路,在MSigDB数据库测试中,对“癌变标志通路”的识别准确率居全球首位,为多靶点联合治疗提供系统性洞见。 最引人注目的是其“零样本泛化”能力——即使面对从未见过的细胞类型或患者样本,模型也能基于已有知识进行类比推理,预测其对特定药物的响应。这意味着,未来药物研发可在计算机中模拟成千上万种治疗方案,筛选最优组合后再进入实验或临床阶段,极大降低试错成本。结合后训练框架,模型还能适配多样化患者背景,推动个性化疗法落地。 Tahoe Bio已累计融资4200万美元,正构建包含10亿数据点的全球最大单细胞扰动图谱。Tahoe-x1已开源模型权重(Hugging Face)、代码(GitHub)及交互式演示,预印本发布于bioRxiv,全面开放科研协作。AIbase指出,Tahoe-x1的真正突破在于其从“统计相关”迈向“机制理解”,使AI具备类似生物学家的推理能力。随着数据持续积累,该模型有望成为精准医疗的基础设施,在虚拟世界中预演千万种治疗路径,只为在现实中为患者赢得最有效的治疗机会。
