Transformer 모델을 활용한 최단 의존 경로 특징과 트리플릿 정보를 통한 생물의학 관계 추출 향상
엔티티 관계 추출은 생물의학, 헬스케어 및 임상 연구 분야에서 중요한 역할을 한다. 최근 트랜스포머 아키텍처 및 그 변형 모델을 기반으로 한 사전 훈련된 모델들이 다양한 자연어 처리 작업에서 뛰어난 성능을 보여주고 있다. 이러한 변형 모델의 대부분은 아키텍처 구성 요소나 표현 방식에 미세한 수정을 가하거나, 원거리 감독(다임스 업서비전) 기법을 활용해 데이터를 증강하는 방식을 채택하고 있다. 원거리 감독 방법에서 가장 주요한 과제 중 하나는 노이즈가 포함된 샘플을 제거하는 것이다. 또한 훈련 샘플이 직접 제공되지 않고 주어진 데이터셋으로부터 구성되어야 하는 상황에서도 유사한 문제가 발생할 수 있다. BioCreative V 화학물질-질병 관계(CDR) 과제는 명시적인 언급 수준의 정답(annotation)을 제공하지 않는 데이터셋을 제공하며, 이는 위의 상황을 재현하고 있다. 잠재적인 엔티티 관계를 전달할 수 있는 주어진 추상문 또는 문서 텍스트에서 대표적인 문장을 선택하는 것은 매우 중요하다. 기존 문헌에서 제안된 대부분의 방법은 전체 텍스트나 엔티티 언급을 포함하는 모든 문장을 고려하는 방식을 사용한다. 그러나 이는 계산 비용이 높고 시간이 오래 걸리는 접근 방식일 수 있다. 본 논문은 생물의학 관계 추출 분야에서 이러한 상황을 다루기 위한 새로운 접근법을 제안한다. 우리는 노이즈 정보를 제거하고 모델 학습에 가장 대표적인 샘플을 선택하기 위해 최단 의존 경로(Shortest Dependency Path, SDP) 특징을 활용한다. 또한 생물의학 분야에 특화된 BERT의 변형인 BioBERT를 사용하여 삼중항(triplet) 정보를 모델 학습에 활용한다. 문제는 문장과 엔티티-관계 쌍을 입력으로 하는 문장 쌍 분류 작업으로 표현된다. 제안된 방법은 CDR 데이터셋에서 문장 내 관계(intra-sentential)와 문장 간 관계(inter-sentential) 모두에 대해 분석하였다. SDP 및 삼중항 특징을 활용한 제안된 접근법은 특히 문장 간 관계 추출 작업에서 희망적인 성과를 보였다. 본 연구에서 사용된 코드는 GitHub에 공개하여 누구나 접근할 수 있도록 하였다.