
초록
우리는 펩타이드 특성 예측을 위한 분자 지문의 효과를 연구하고, 분자 그래프에서 도메인 특화된 특징 추출이 GNNs, 사전 학습된 시퀀스 기반 변환기 및 다중 모달 앙상블과 같은 복잡하고 계산 비용이 높은 모델보다 우수한 성능을 보일 수 있음을 증명합니다. 이를 위해 126개 데이터셋에 대해 철저한 평가를 수행하여 LRGB와 5개의 다른 펩타이드 기능 예측 벤치마크에서 최신 결과를 달성했습니다. 우리는 ECFP, 위상적 토파션(Topological Torsion), RDKit 분자 지문의 카운트 변형과 LightGBM을 분류 머리부분으로 사용하는 모델들이 매우 강건함을 보였습니다. 본질적으로 매우 단거리 특징 인코더인 분자 지문의 강력한 성능은 펩타이드에서 장거리 상호작용의 중요성을 가정하는 관점을 도전합니다. 우리의 결론은 분자 지문을 펩타이드와 같은 큰 분자에 사용하면 계산적으로 실현 가능하며, 파라미터가 적고, 다양한 대안으로 고도화된 딥러닝 모델을 대체할 수 있다는 것입니다.