2달 전

이벤트 내러티브: 지식 그래프-텍스트 생성을 위한 대규모 이벤트 중심 데이터셋

Anthony Colas; Ali Sadeghian; Yue Wang; Daisy Zhe Wang
이벤트 내러티브: 지식 그래프-텍스트 생성을 위한 대규모 이벤트 중심 데이터셋
초록

우리는 공개적으로 이용 가능한 오픈 월드 지식 그래프에서 추출한 EventNarrative라는 지식 그래프-텍스트 데이터셋을 소개합니다. 최근 이벤트 기반 정보 추출(Information Extraction, IE) 분야의 발전과 이전에 그래프-텍스트 변환 연구가 주로 엔티티 중심의 지식 그래프(Knowledge Graphs, KGs)에만 초점을 맞추었던 것에 비해, 본 논문은 이벤트 중심 데이터에 중점을 둡니다. 그러나 우리의 데이터 생성 시스템은 여전히 다른 유형의 KG 데이터에도 적용될 수 있습니다. 현재 그래프-텍스트 분야의 대규모 데이터셋들은 비동기적(non-parallel)으로, 즉 KG와 텍스트 사이에 큰 차이가 존재합니다. 쌍을 이루는 KG와 텍스트를 가진 데이터셋들은 규모가 작고 수작업으로 생성되었거나 풍부한 온톨로지 없이 생성되어 해당 그래프들이 희소(sparse)합니다. 또한 이러한 데이터셋들은 KG와 텍스트 쌍 간에 많은 연결되지 않은 엔티티를 포함하고 있습니다. EventNarrative는 약 230,000개의 그래프와 그에 해당하는 자연어 텍스트로 구성되어 있으며, 현재 가장 큰 동기적(parallel) 데이터셋보다 6배 크습니다. 이 데이터셋은 풍부한 온톨로지를 활용하며, 모든 KG 엔티티가 텍스트와 연결되어 있으며, 수작업 주석을 통해 높은 데이터 품질을 확인하였습니다. 우리의 목표는 두 가지입니다: 첫째, 이벤트 중심 연구에서 부족한 데이터를 제공하여 새로운 영역을 개척하는 것이며, 둘째, 연구자들이 기존 및 미래의 지식 그래프-텍스트 모델을 더 잘 평가할 수 있도록 정확하게 정의된 대규모 데이터셋을 제공하는 것입니다. 또한 우리는 EventNarrative에서 두 가지 유형의 베이스라인 모델을 평가하였습니다: 그래프-텍스트 전용 모델과 두 개의 최신 언어 모델(state-of-the-art language models)입니다. 이전 연구에서는 이러한 언어 모델들이 지식 그래프-텍스트 영역에 적응 가능하다는 것을 보여주었습니다.

이벤트 내러티브: 지식 그래프-텍스트 생성을 위한 대규모 이벤트 중심 데이터셋 | 최신 연구 논문 | HyperAI초신경