18일 전
TPLinker: 토큰 쌍 연결을 통한 단계별 동시 엔티티 및 관계 추출
Yucheng Wang, Bowen Yu, Yueyang Zhang, Tingwen Liu, Hongsong Zhu, Limin Sun

초록
구조화되지 않은 텍스트에서 개체(entity)와 관계(relation)를 추출하는 것은 최근 몇 년간 점점 더 많은 주목을 받고 있지만, 공유되는 개체를 가진 중첩된 관계를 식별하는 본질적인 어려움으로 인해 여전히 도전 과제로 남아 있다. 기존 연구들은 공동 학습(joint learning)이 성능 향상에 상당한 기여를 할 수 있음을 보여주었다. 그러나 이러한 방법들은 일반적으로 순차적이고 상호 의존적인 단계를 포함하며, 노출 편향(exposure bias) 문제에 노출되어 있다. 학습 시에는 정답 조건을 기반으로 예측을 수행하지만, 추론 시에는 처음부터 추출을 시작해야 하기 때문에 오류가 누적되는 문제가 발생한다. 이러한 문제를 완화하기 위해 본 논문에서는 단일 단계(single-stage)의 공동 추출 모델인 TPLinker를 제안한다. TPLinker는 공유되는 하나 또는 둘의 개체를 가진 중첩된 관계를 탐지할 수 있으며, 노출 편향에 영향을 받지 않는 특성을 지닌다. TPLinker는 공동 추출 문제를 토큰 쌍 연결(token pair linking) 문제로 포괄적으로 재정의하고, 각 관계 유형에 따라 개체 쌍의 경계 토큰을 정렬하는 새로운 손잡기 태깅(handshaking tagging) 체계를 도입한다. 실험 결과, TPLinker는 중첩 관계 및 다수 관계 추출에서 유의미한 성능 향상을 보이며, 두 개의 공개 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였다.