
초록
문서 수준 관계 추출은 문서 내의 실체들 간의 관계를 추출하는 것을 목표로 한다. 문장 수준 관계 추출과 비교할 때, 문서 수준 관계 추출은 복잡한 관계 삼중항을 추출하기 위해 다수의 문장을 통한 추론이 필요하다. 기존 연구들은 일반적으로 언급 수준 또는 실체 수준의 문서 그래프를 기반으로 정보 전파를 통해 추론을 수행하지만, 관계 간의 상관관계를 고려하지 않는다. 본 논문에서는 관계 간의 상관관계를 포착하기 위해 추론을 마스킹된 이미지 재구성 문제로 모델링한 새로운 문서 수준 관계 추출 모델인 DRE-MIR(DocRED-Masked Image Reconstruction)을 제안한다. 구체적으로, 먼저 인코더 모듈을 활용하여 실체의 특징을 추출하고, 해당 특징을 기반으로 실체 쌍 행렬을 구성한다. 이후 실체 쌍 행렬을 이미지처럼 간주하여 무작위로 마스킹하고, 추론 모듈을 통해 복원함으로써 관계 간의 상관관계를 포착한다. 제안한 모델은 DocRED, CDR, GDA 세 가지 공개 문서 수준 관계 추출 데이터셋에서 평가되었으며, 실험 결과 본 모델은 세 데이터셋에서 최고 성능을 달성하였고, 추론 과정 중 발생하는 노이즈에 대해 뛰어난 내구성을 보였다.