REXEL: 문서 수준의 관계 추출 및 개체 연결을 위한 엔드투엔드 모델

비정형 텍스트에서 구조화된 정보를 추출하는 것은 많은 후속 NLP 응용 프로그램에 있어 중요한 과제이며, 전통적으로 폐쇄형 정보 추출(closed Information Extraction, cIE)을 통해 이루어져 왔습니다. 그러나 기존의 cIE 접근 방식은 두 가지 제한 사항을 가지고 있습니다: (i) 종종 파이프라인 형태로 구성되어 오류 전파에 취약하며, 또는 (ii) 문장 수준에 제한되어 장거리 의존성을 포착할 수 없고 추론 시간이 비싸다는 점입니다. 이러한 제한 사항을 해결하기 위해 우리는 문서 수준 cIE(DocIE)의 공동 작업을 위한 매우 효율적이고 정확한 모델인 REXEL을 제안합니다. REXEL은 단일 순방향 패스에서 언급 검출(mention detection), 개체 유형 지정(entity typing), 개체 해소(entity disambiguation), 공참 분해(coreference resolution), 문서 수준 관계 분류(document-level relation classification)를 수행하여 참조 지식 그래프(reference knowledge graph)와 완전히 연결된 사실들을 생성합니다. 유사한 환경에서 경쟁력 있는 기존 접근 방식보다 평균 11배 빠르며, 개별 하위 작업이나 다양한 공동 작업 조합에 대해 최적화되었을 때 모두 경쟁력을 유지하며, 기준선(baselines)보다 평균 6 F1 포인트 이상 우수한 성능을 보입니다. 속도와 정확성의 결합으로 REXEL은 웹 규모에서 구조화된 정보를 추출하기 위한 정확하고 비용 효율적인 시스템입니다. 또한 미래의 DocIE 연구를 위한 벤치마킹을 가능하게 하기 위해 DocRED 데이터셋의 확장을 제공하며, 이는 https://github.com/amazon-science/e2e-docie 에서 이용할 수 있습니다.