
초록
본 연구에서는 BioCreative VII 챌린지의 DrugProt 작업에 참여한 우리의 연구를 소개합니다. 약물-타겟 상호작용(DTI, Drug-target interactions)은 약물 발굴 및 재활용에 있어 매우 중요하며, 종종 실험 논문에서 수작업으로 추출됩니다. PubMed에는 3,200만 건 이상의 생물 의학 논문이 등재되어 있으며, 이처럼 방대한 지식 기반에서 DTI를 수작업으로 추출하는 것은 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 약물과 단백질 엔티티 간의 10가지 상호작용을 추출하는 것을 목표로 하는 트랙 1에 대한 솔루션을 제공합니다. 우리는 최신 언어 모델인 BioMed-RoBERTa와 합성곱 신경망(CNN, Convolutional Neural Networks)을 결합한 앙상블 분류기 모델을 적용하여 이러한 관계를 추출하였습니다. BioCreative VII DrugProt 테스트 코퍼스에서 클래스 불균형이 존재함에도 불구하고, 우리의 모델은 도전 과제의 다른 제출물 평균보다 우수한 성능을 보였으며, 마이크로 F1 점수가 55.67%(BioCreative VI ChemProt 테스트 코퍼스에서는 63%)를 기록하였습니다. 결과는 다양한 유형의 DTI 추출에 딥러닝의 잠재력을 보여줍니다.