
초록
본 연구에서는 텍스트 입력으로부터 지식 그래프(Knowledge Graph, KG)를 생성하는 새로운 단계별 종단 간(end-to-end) 시스템을 제안합니다. 전체 프로세스를 두 단계로 분리하여, 먼저 사전 학습된 언어 모델(pretrained language model)을 사용하여 그래프 노드(graph nodes)를 생성하고, 그 다음에 간단한 엣지 구성 헤드(edge construction head)를 통해 효율적인 텍스트에서의 KG 추출을 가능하게 합니다. 각 단계에서 사용 가능한 훈련 자원에 따라 여러 가지 구조적 선택사항(architectural choices)을 고려하였습니다. 우리는 최근의 WebNLG 2020 챌린지 데이터셋에서 이 모델을 평가하였으며, 텍스트-자원 설명 프레임(RDF, Resource Description Framework) 생성 작업에서 최신 기술(state-of-the-art) 수준의 성능을 보였습니다. 또한 뉴욕타임즈(New York Times, NYT)와 대규모 TekGen 데이터셋에서도 강력한 전반적인 성능을 보여주며 기존 베이스라인(baselines)들을 능가하였습니다. 우리는 제안된 시스템이 기존의 선형화(linearization)나 샘플링(sampling)-기반 그래프 생성 접근법들의 실용적인 대안이 될 수 있다고 믿습니다. 우리의 코드는 https://github.com/IBM/Grapher 에서 확인할 수 있습니다.