
초록
부정은 언어의 중요한 특성 중 하나이며, 텍스트에서 정보를 추출하는 주요 구성 요소입니다. 이 하위 작업은 의생명 과학 분야에서 상당히 중요합니다. 수년 동안 이 문제를 해결하기 위해 다양한 접근 방식이 탐구되었습니다: 규칙 기반 시스템, 머신 러닝 분류기, 조건부 확률 모델(CRF), CNN 및 최근에는 양방향 LSTM(BiLSTM) 등이 있습니다. 본 논문에서는 전이 학습을 이 문제에 적용하는 방법을 살펴봅니다. 먼저, 부정 검출과 범위 결정(Scope Resolution)을 다룬 3개의 인기 있는 데이터셋인 BioScope 코퍼스, Sherlock 데이터셋, 그리고 SFU 리뷰 코퍼스에 대한 이전 문헌을 체계적으로 검토합니다. 그 다음으로, 이 작업에 BERT라는 인기 있는 전이 학습 모델을 사용할 때 관련된 결정 사항들을 탐색하고, 모든 3개 데이터셋에서 범위 결정에 대한 최신 성능 결과를 보고합니다. 우리의 모델인 NegBERT는 Sherlock 데이터셋에서 범위 결정의 토큰 단위 F1 점수가 92.36%, BioScope 초록 하코퍼스에서 95.68%, BioScope 전체 논문 하코퍼스에서 91.24%, SFU 리뷰 코퍼스에서 90.95%로 기존 최신 시스템들보다 크게 우수한 성능을 보였습니다. 또한 우리는 모델이 훈련되지 않은 데이터셋에 대한 일반화 능력을 분석하였습니다.