
摘要
我们研究了分子指纹在肽性质预测中的有效性,并证明了从分子图中提取特定领域的特征可以超越复杂且计算成本高昂的模型(如图神经网络(GNNs)、预训练的基于序列的变换器和多模态集成模型),即使不进行超参数调优也是如此。为此,我们在126个数据集上进行了详尽的评估,在LRGB和另外5个肽功能预测基准测试中取得了最先进的结果。我们展示了基于ECFP计数变体、拓扑扭转(Topological Torsion)和RDKit分子指纹以及LightGBM分类头的模型具有显著的鲁棒性。分子指纹(本质上是非常短程的特征编码器)表现出的强大性能挑战了长程相互作用在肽中重要性的假设。我们的结论是,对于较大的分子如肽,使用分子指纹可以成为一种计算可行、低参数且多功能的替代方案,相较于复杂的深度学习模型而言。