1 个月前
MoleculeNet:分子机器学习的基准测试集
Zhenqin Wu; Bharath Ramsundar; Evan N. Feinberg; Joseph Gomes; Caleb Geniesse; Aneesh S. Pappu; Karl Leswing; Vijay Pande

摘要
近年来,分子机器学习领域取得了迅速的发展。改进的方法和更大规模的数据集使得机器学习算法在预测分子性质方面越来越准确。然而,由于缺乏一个标准的基准来比较所提出方法的有效性,算法的进步受到了限制;大多数新算法都是在不同的数据集上进行测试,这使得评估所提方法的质量变得困难。本研究引入了MoleculeNet,这是一个大规模的分子机器学习基准。MoleculeNet整理了多个公共数据集,建立了评估指标,并提供了多种先前提出的分子特征化和学习算法的高质量开源实现(作为DeepChem开源库的一部分发布)。MoleculeNet基准测试表明,可学习表示是分子机器学习的强大工具,并且总体上提供了最佳性能。然而,这一结果也存在一些局限性。可学习表示在数据稀缺和高度不平衡分类的复杂任务中仍然面临挑战。对于量子力学和生物物理数据集而言,使用物理感知特征化可能比选择特定的学习算法更为重要。