本研究中,采用两种不同预训练方法构建的大型语言模型ChemBERTa-2的两个版本,均经过微调,用于预测HIV复制抑制活性。其中表现最佳的模型在测试集上获得了0.793的AUROC值。对比微调前后分子嵌入(molecular embeddings)的分布变化可知,模型在区分具有活性与无活性的HIV分子方面的能力显著增强。