
초록
문장 수준의 관계 추출(Sentence-level relation extraction, RE)은 문장 내 두 개의 실체 간의 관계를 식별하는 것을 목표로 한다. 이 문제에 대해 많은 연구 노력이 기울여졌지만, 현재까지 가장 우수한 성능을 보이는 방법들 역시 완벽하지 않은 상태이다. 본 논문에서는 기존 RE 모델의 성능에 영향을 미치는 두 가지 문제, 즉 실체 표현(entity representation)과 노이즈가 많거나 명확하지 않은 레이블(noisy or ill-defined labels)에 대해 다시 고민한다. 유형 마커(typed markers)를 활용한 실체 표현을 포함한 개선된 RE 베이스라인은 TACRED 데이터셋에서 F1 점수 74.6%를 기록하며, 기존 최고 성능(SOTA) 방법들을 크게 상회한다. 또한 제시된 새로운 베이스라인은 개선된 Re-TACRED 데이터셋에서 F1 점수 91.1%를 달성하여, 사전 훈련된 언어 모델(Pretrained Language Models, PLMs)이 이 작업에서 높은 성능을 발휘할 수 있음을 보여준다. 본 연구에서 개발한 코드는 향후 연구를 위해 커뮤니티에 공개한다.