
초록
오픈 정보 추출(Open IE)은 특히 데이터 기반이 불안정하기 때문에 어려운 과제입니다. 대부분의 오픈 정보 추출 시스템은 자동으로 구축된 말뭉치에서 훈련을 받아야 하며, 부정확한 테스트 세트에서 평가되어야 합니다. 본 연구에서는 훈련 세트와 테스트 세트 양쪽에서 이 어려움을 완화시키기 위해 노력하였습니다. 먼저, 훈련 세트 측면에서는 개선된 모델 설계를 제안하여 훈련 데이터셋을 보다 충분히 활용할 수 있도록 하였습니다.其次, 在测试集方面,我们根据一系列语言学观察和分析,提出了我们精确重新注释的基准测试集(Re-OIE6)。接着,我们引入了一种跨度模型来替代先前用于n元开放信息提取的序列标注方法。我们的新引入模型在两个基准评估数据集上均达到了最新的最先进性能。注:在翻译中,“其次”被翻译为“둘째로”,“提出”被翻译为“제시하였으며”,以符合韩语的表达习惯。为了保持句子结构的自然流畅,对原文进行了适当的调整。修正后的韩文翻译如下:둘째로, 테스트 세트 측면에서는 일련의 언어학적 관찰과 분석에 따라 정확하게 재주석한 벤치마크 테스트 세트(Re-OIE6)를 제시하였습니다. 그 다음으로, n-ary 오픈 정보 추출을 위한 기존의 시퀀스 라벨링 방식 대신 스패닝 모델을 도입하였습니다. 본 연구에서 새롭게 도입된 모델은 두 개의 벤치마크 평가 데이터셋에서 새로운 최고 성능을 달성하였습니다.