2 个月前
Therapeutics Data Commons:用于药物发现和开发的机器学习数据集和任务
Kexin Huang; Tianfan Fu; Wenhao Gao; Yue Zhao; Yusuf Roohani; Jure Leskovec; Connor W. Coley; Cao Xiao; Jimeng Sun; Marinka Zitnik

摘要
治疗学机器学习是一个充满创新和影响潜力的新兴领域。然而,该领域的进步需要制定有意义的学习任务并精心整理数据集。在此,我们介绍治疗学数据共享平台(Therapeutics Data Commons, TDC),这是首个系统性访问和评估整个治疗学范围内的机器学习的统一平台。截至目前,TDC 包含了 66 个适用于人工智能的数据集,涵盖了 22 项学习任务,并涉及安全有效药物的发现和开发过程。TDC 还提供了一个工具和社区资源生态系统,包括 33 种数据功能和类型的数据分割方法、23 种系统性模型评估策略、17 种分子生成算法以及 29 个公开排行榜。所有资源均通过一个开放的 Python 库进行集成和访问。我们在选定的数据集上进行了广泛的实验,结果表明,即使是最强大的算法在解决关键治疗学挑战方面也存在不足,这些挑战包括真实数据集的分布变化、异质数据的多尺度建模以及对新数据点的稳健泛化能力。我们设想 TDC 能够促进算法和科学的进步,并显著加速机器学习模型的开发、验证及向生物医学和临床应用的转化。TDC 是一项开放科学倡议,可访问网址为 https://tdcommons.ai。