摘要
计算化学领域因机器学习(Machine Learning, ML)技术的引入而经历了显著的发展。尽管该技术具有彻底变革该领域的潜力,研究人员在实际应用中仍面临诸多挑战,包括最优算法的选择复杂性、数据预处理流程的自动化需求、自适应特征工程的必要性,以及确保模型在不同数据集上性能一致性的难题。针对这些问题,DeepMol作为一项自动化机器学习(AutoML)工具脱颖而出,能够自动完成机器学习流程中的关键步骤。DeepMol可快速、自动地为特定分子性质或活性预测任务识别出最有效的数据表示方式、预处理方法及模型配置。在22个基准数据集上的测试表明,DeepMol所构建的机器学习流程在性能上可与需耗时进行特征工程、模型设计与选择的传统方法相媲美。作为首个专为计算化学领域设计的AutoML工具之一,DeepMol凭借其开源代码、详尽的教程、全面的文档以及真实应用场景示例,赢得了广泛关注。相关资源均公开于 https://github.com/BioSystemsUM/DeepMol 和 https://deepmol.readthedocs.io/en/latest/。通过将AutoML引入计算化学领域,DeepMol确立了其作为该领域开创性前沿工具的领先地位。