BioRED: 풍부한 생물의학적 관계 추출 데이터셋

의학 문헌에서 자동 관계 추출(Automated Relation Extraction, RE)은 연구 및 실제 환경에서 많은 텍스트 마이닝 응용 프로그램에 있어 필수적입니다. 그러나 대부분의 기존 의학 RE 벤치마킹 데이터셋은 문장 수준에서 단일 유형의 관계(예: 단백질-단백질 상호작용)에만 초점을 맞추고 있어, 의학 분야에서 RE 시스템의 개발을 크게 제한하고 있습니다. 본 연구에서는 먼저 일반적으로 사용되는 명명된 실체 인식(Named Entity Recognition, NER) 및 RE 데이터셋을 검토합니다. 그 다음으로, 600개의 PubMed 초록을 기반으로 다중 실체 유형(예: 유전자/단백질, 질병, 화학물질)과 관계 쌍(예: 유전자-질병; 화학물질-화학물질)을 포함하는 문서 수준의 첫 번째 의학 RE 코퍼스인 BioRED를 소개합니다. 또한 각 관계가 새로운 발견이나 이전에 알려진 배경 지식을 설명하는지 여부를 라벨링하여, 자동 알고리즘들이 새로운 정보와 배경 정보를 구분할 수 있도록 합니다. 우리는 BERT 기반 모델 등을 포함한 여러 최신 방법들을 NER 및 RE 작업에 대해 벤치마킹하여 BioRED의 활용성을 평가하였습니다. 결과는 기존 접근 방식이 NER 작업에서 높은 성능(F-score 89.3%)을 달성할 수 있지만, 특히 새로운 관계를 추출할 때(RE 작업 F-score 47.7%) RE 작업에는 아직 많은 개선 여지가 있음을 보여주었습니다. 우리의 실험은 이러한 풍부한 데이터셋이 더 정확하고 효율적이며 강건한 의학 RE 시스템 개발을 성공적으로 지원할 수 있음을 입증하였습니다. BioRED 데이터셋과 주석 가이드라인은 https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/ 에서 무료로 제공됩니다.