2달 전

DocRED: 대규모 문서 수준 관계 추출 데이터셋

Yuan Yao; Deming Ye; Peng Li; Xu Han; Yankai Lin; Zhenghao Liu; Zhiyuan Liu; Lixin Huang; Jie Zhou; Maosong Sun
DocRED: 대규모 문서 수준 관계 추출 데이터셋
초록

문서 내 여러 실체들은 일반적으로 복잡한 문장 간 관계를 나타내며, 기존의 관계 추출(RE) 방법들이 주로 단일 실체 쌍에 대한 문장 내 관계 추출에 초점을 맞추고 있어 이를 효과적으로 처리하지 못합니다. 문서 수준의 RE 연구를 가속화하기 위해, 우리는 위키백과와 위키데이터에서 구축된 세 가지 특징을 가진 새로운 데이터셋인 DocRED를 소개합니다: (1) DocRED는 명명된 실체와 관계 모두를 주석화하며, 평범한 텍스트에서 유래한 가장 큰 인공 주석화 데이터셋입니다; (2) DocRED는 문서 내 여러 문장을 읽어 모든 정보를 종합하여 실체를 추출하고 그들의 관계를 유추해야 합니다; (3) 인공 주석화 데이터 외에도 대규모 원격 감독 데이터도 제공되므로, DocRED는 감독 학습과 약간의 감독 학습 시나리오 모두에 적용될 수 있습니다. 문서 수준의 RE의 도전 과제를 검증하기 위해, 우리는 최근의 최신 RE 방법들을 구현하여 이러한 방법들을 DocRED에서 철저히 평가하였습니다. 경험적 결과는 DocRED가 기존 RE 방법들에 대해 도전적인 것으로 나타났으며, 이는 문서 수준의 RE가 여전히 개방형 문제임을 시사하며 추가적인 노력이 필요함을 보여줍니다. 실험에 대한 상세 분석을 바탕으로, 우리는 미래 연구를 위한 다수의 유망한 방향들을 논의합니다.

DocRED: 대규모 문서 수준 관계 추출 데이터셋 | 최신 연구 논문 | HyperAI초신경