17일 전
관계 삼중항 추출을 위한 새로운 캐스케이드 이진 태깅 프레임워크
Zhepei Wei, Jianlin Su, Yue Wang, Yuan Tian, Yi Chang

초록
구조화되지 않은 텍스트에서 관계 삼각형을 추출하는 것은 대규모 지식 그래프 구축에 있어 핵심적인 과제이다. 그러나 기존의 대부분의 연구들은 동일한 문장 내에서 동일한 엔티티를 공유하는 여러 관계 삼각형이 중첩되는 문제를 효과적으로 해결하지 못하고 있다. 본 연구에서는 관계 삼각형 추출 작업을 새롭게 재정의하고, 체계적인 문제 정의에서 유도된 새로운 계단형 이진 태깅 프레임워크(CasRel)를 제안한다. 기존 연구들이 관계를 이산적인 레이블로 취급하는 반면, 본 연구의 새로운 프레임워크는 관계를 문장 내에서 주어진 주어(subject)를 목적어(object)로 매핑하는 함수로 모델링함으로써 자연스럽게 중첩 문제를 해결한다. 실험 결과, CasRel 프레임워크는 무작위 초기화된 BERT 인코더를 사용하는 경우에도 기존 최고 성능의 방법들을 이미 능가함을 보여주며, 새로운 태깅 프레임워크의 강력한 잠재력을 입증한다. 사전 훈련된 BERT 인코더를 적용할 경우 성능이 더욱 향상되어, 공개 데이터셋인 NYT와 WebNLG에서 각각 F1 점수에서 기존 최강의 베이스라인보다 17.5점과 30.2점의 절대적 성능 향상을 달성하였다. 중첩된 삼각형이 발생하는 다양한 시나리오에 대한 심층 분석 결과, 본 방법은 모든 시나리오에서 일관된 성능 향상을 보였다. 관련 소스 코드와 데이터는 온라인으로 공개되었다.