CoType: 지식 기반과 함께 유형화된 실체 및 관계의 공동 추출

텍스트에서 관심 있는 유형의 엔티티와 관계를 추출하는 것은 대규모 텍스트 코퍼스를 이해하는 데 중요합니다. 전통적으로, 엔티티 관계 추출 시스템은 학습을 위해 사람에 의해 주석이 달린 코퍼스에 의존하고 단계적인 파이프라인을 채택해 왔습니다. 이러한 시스템은 새로운 도메인으로 이식하기 위해서는 추가적인 인간의 전문 지식이 필요하며, 파이프라인 내에서 오류가 누적되는 문제에 취약합니다. 본 논문에서는 지식 기반에서 휴리스틱하게 얻은 라벨링된 데이터(즉, 원격 감독)를 사용하여 타입화된 엔티티와 관계의 공동 추출을 연구합니다. 우리의 원격 감독을 통한 타입 라벨링 알고리즘은 문맥에 무관하므로, 노이즈가 많은 학습 데이터가 작업에 고유한 도전 과제를 제기합니다. 우리는 이를 해결하기 위해 새로운 도메인에 독립적인 프레임워크인 CoType를 제안합니다. CoType는 데이터 주도형 텍스트 분할 알고리즘을 실행하여 엔티티 언급을 추출하고, 엔티티 언급, 관계 언급, 텍스트 특징 및 타입 라벨을 두 개의 저차원 공간(각각 엔티티 언급과 관계 언급을 위한)으로 공동 임베딩합니다. 각 공간에서 타입이 가까운 객체들은 비슷한 표현을 가지게 됩니다. CoType는 이러한 학습된 임베딩을 사용하여 테스트(연결 불가능한) 언급의 타입을 추정합니다. 우리는 텍스트 코퍼스와 지식 기반으로부터 임베딩을 학습하기 위한 공동 최적화 문제를 정식화하고, 노이즈가 많은 라벨링된 데이터를 처리하기 위해 새로운 부분 라벨 손실 함수(partial-label loss function)를 채택하며, 엔티티와 관계 간의 상호 제약 조건(cross-constraints)을 포착하기 위한 객체 "번역" 함수(object "translation" function)를 소개합니다. 세 개의 공개 데이터셋에서 수행된 실험 결과는 CoType가 다양한 도메인(예: 뉴스, 생명과학)에서 효과적이며, 다음으로 좋은 방법보다 평균적으로 F1 점수가 25% 개선됨을 보여줍니다.