
생물의학 분야의 연구는 지수적으로 증가하고 있어, 과학자, 연구자 및 실무자들이 해당 분야에서 출판된 문헌의 양을 더 이상 감당하기 어렵다. 문헌에 제시된 지식은 주장과 가설을 쉽게 찾고, 접근하며 검증할 수 있도록 체계화되어야 한다. 지식 그래프는 문헌에서 추출된 의미론적 지식을 표현하기 위한 그러한 프레임워크를 제공할 수 있다. 그러나 지식 그래프를 구축하기 위해서는 생물의학적 엔티티 간의 관계를 추출하고, 엔티티 및 관계 유형을 정규화하는 것이 필요하다. 본 논문에서는 생물의학 문헌에서 관계를 효율적으로 추출하고 지식 그래프에 통합하기 위해 규칙 기반 및 기계학습 기반(전통적인 기계학습 방법으로는 나이브 베이즈, 랜덤 포레스트를 예로 들며, 현대적인 딥러닝 트랜스포머 모델로는 DistilBERT, PubMedBERT, T5 및 SciFive 기반 모델을 예시로 제시)의 다양한 방법들을 제안하고 비교한다. 또한, 이러한 다양한 방법들이 불균형하고 비교적 소규모 데이터셋에 대해 얼마나 강건한지를 검토한다. 실험 결과, 트랜스포머 기반 모델은 사전 훈련된 대규모 데이터셋을 통해 소규모 데이터셋과 불균형 데이터셋 모두를 잘 처리함을 확인할 수 있었다. 가장 뛰어난 성능을 보인 모델은 균형 잡힌 데이터로 미세 조정된 PubMedBERT 기반 모델로, 보고된 F1 스코어는 0.92였다. DistilBERT 기반 모델은 F1 스코어 0.89로 그 다음으로 높은 성능을 보였으며, 더 빠른 처리 속도와 낮은 자원 요구량을 갖추고 있었다. BERT 기반 모델은 T5 기반 생성형 모델보다 더 우수한 성능을 보였다.