
초록
문서 수준의 엔티티 기반 추출(EE)은 다양한 분야에서 텍스트 코퍼스로부터 자동으로 지식을 획득하기 위한 핵심 기술로, 엔티티 역할과 엔티티 관계 등의 엔티티 중심 정보를 추출하는 것을 목표로 합니다. 대부분의 문서 수준 EE 시스템은 추출 모델을 구축하지만, 이는 문서 수준에서 엔티티 간의 장기 의존성을 모델링하는 데 어려움이 있습니다. 이러한 문제를 해결하기 위해, 우리는 두 가지 문서 수준 EE 작업인 역할 채우기 엔티티 추출(REE) 및 관계 추출(RE)에 대한 생성적 프레임워크를 제안합니다. 먼저 이를 템플릿 생성 문제로 정식화하여, 모델이 효율적으로 엔티티 간 의존성을 포착하고 라벨 의미를 활용하며 N-항 관계(N-ary relations) 식별의 지수 계산 복잡도를 피할 수 있도록 합니다. 또한 사전 학습된 시퀀스-투-시퀀스(sequence-to-sequence) 모델에 새로운 크로스 어텐션 안내 복사 메커니즘인 TopK Copy를 통합하여 입력 문서에서 주요 정보를 식별하는 능력을 강화하였습니다. MUC-4와 SciREX 데이터셋에서 수행한 실험 결과, REE(+3.26%), 이진 RE(+4.8%), 4-항 RE(+2.7%)에서 F1 점수가 새로운 최고 성능을 달성함을 보여주었습니다.