2달 전

다양한 레이블링 수준을 가진 문서 단위 관계 추출을 위한 통합된 양성-미레이블 학습 프레임워크

Ye Wang; Xinxin Liu; Wenxin Hu; Tao Zhang
다양한 레이블링 수준을 가진 문서 단위 관계 추출을 위한 통합된 양성-미레이블 학습 프레임워크
초록

문서 수준 관계 추출(RE)은 여러 문장에 걸쳐 실체 간의 관계를 식별하는 것을 목표로 합니다. 대부분의 이전 방법들은 완전한 감독 하에서 문서 수준 RE에 집중했습니다. 그러나 실제 환경에서는 문서 내 모든 관계를 완전히 라벨링하는 것이 비용이 많이 들고 어렵습니다.这是因为文档级别的RE中实体对的数量随着实体数量的增加而呈二次增长。为了解决常见的不完全标记问题,我们提出了一种统一的正未标记学习框架——移位和平方排序损失正未标记(SSR-PU)学习。我们首次在文档级别RE中使用了正未标记(PU)学习。考虑到数据集中的标记数据可能导致未标记数据的先验偏移,我们引入了训练数据先验偏移下的PU学习。此外,通过使用非类别得分作为自适应阈值,我们提出了平方排序损失,并证明了其与多标签排序度量的贝叶斯一致性。广泛的实验表明,我们的方法在不完全标记的情况下相对于之前的基线提高了约14个F1点。此外,在完全监督和极度未标记设置下,我们的方法均优于以前的最先进结果。注:由于原文中包含中文部分,我将其翻译成了韩文。以下是修正后的翻译:문서 수준 관계 추출(RE)은 여러 문장에 걸쳐 실체 간의 관계를 식별하는 것을 목표로 합니다. 대부분의 이전 방법들은 완전한 감독 하에서 문서 수준 RE에 집중했습니다. 그러나 실제 환경에서는 문서 내 모든 관계를 완전히 라벨링하는 것이 비용이 많이 들고 어렵습니다. 이는 문서 수준 RE에서 실체 쌍의 수가 실체의 수와 함께 2차적으로 증가하기 때문입니다(문서 수준 RE에서 실체 쌍의 수는 실체의 수와 함께 2차적으로 증가). 이러한 일반적인 불완전 라벨링 문제를 해결하기 위해, 우리는 통합된 양성-미라벨(PU) 학습 프레임워크인 시프트 앤드 스퀘어드 랭킹 로스 양성-미라벨(SSR-PU) 학습을 제안합니다. 우리는 처음으로 문서 수준 RE에서 양성-미라벨(PU) 학습을 사용하였습니다. 데이터 세트 내의 라벨링된 데이터가 미라벨 데이터의 사전 확률 변화를 초래할 가능성을 고려하여, 우리는 훈련 데이터 사전 확률 변화 하에서 PU 학습을 도입하였습니다. 또한, 비클래스 점수를 적응적 임계값으로 사용하여, 우리는 스퀘어드 랭킹 로스를 제안하고 이를 다중 라벨 순위 지표와 베이지안 일관성이 있음을 증명하였습니다(스퀘어드 랭킹 로스(Squared Ranking Loss)). 광범위한 실험 결과, 우리의 방법은 불완전 라벨링 조건에서 기존 기준 대비 약 14개 F1 포인트 개선을 보였습니다. 또한, 완전 감독 및 극도로 미라벨 설정 모두에서 이전 최신 연구 결과보다 우수한 성능을 보였습니다.希望这次翻译符合您的要求。如果有任何需要调整的地方,请随时告知。

다양한 레이블링 수준을 가진 문서 단위 관계 추출을 위한 통합된 양성-미레이블 학습 프레임워크 | 최신 연구 논문 | HyperAI초신경