
초록
문서 수준 관계 추출(DocRE)은 문서 내의 엔티티 쌍 간의 관계를 식별하는 것을 목표로 합니다. 그러나 대부분의 기존 방법은 균일한 라벨 분포를 가정하여, 실제 세계에서 불균형한 데이터셋에 대한 성능이 최적화되지 않는 문제가 있습니다. 이 문제를 해결하기 위해, 우리는 임베딩 공간에서 데이터를 강화하기 위한 새로운 생성 모델을 활용한 데이터 증강 접근법을 제안합니다. 우리의 방법은 변분 오토인코더(VAE) 구조를 활용하여 엔티티 쌍 표현으로 형성된 모든 관계별 분포를 포착하고, 과소표현된 관계에 대한 데이터를 증강합니다. 또한, DocRE의 다중 라벨 특성을 더 잘 포착하기 위해 VAE의 잠재 공간을 확산 모델(Diffusion Model)로 매개변수화하였습니다. 더불어, 제안된 VAE 기반 증강 모듈을 DocRE 시스템에 통합하기 위한 계층적 학습 프레임워크를 소개합니다. 두 개의 벤치마크 데이터셋에서 수행한 실험 결과, 우리의 방법이 최신 모델들을 능가하며, DocRE에서 발생하는 긴 꼬리 분포 문제를 효과적으로 해결함을 보여주었습니다.